Národní úložiště šedé literatury Nalezeno 106 záznamů.  1 - 10dalšíkonec  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Metody pro hraní hry Liar's Dice s využítím dynamického programování
Lohn, Marek ; Šátek, Václav (oponent) ; Zbořil, František (vedoucí práce)
Tato práce řeší metody hraní hry Liar’s Dice s využitím dynamického programování. Pro přístup k této práci byl zvolen algoritmus posilovaného učení SARSA, který je upravenou verzí algoritmu Q-Learning. Tento algoritmus byl následně porovnáván s již existujícími přístupy takovým způsobem, že byl ponechán hrát proti nim za pomocí aplikace, která byla vytvořena v herním engine Unity. Porovnávání proběhlo konkrétně nad algoritmy Q-Learning a Counterfactual Regret Minimization. Ve výsledku bylo dosaženo úspěšnosti 69,147 % ve hře proti Q-Learning a úspěšnosti pouze 25 % proti algoritmu Counterfactual Regret Minimization. Tato práce poskytuje hlavní přehled o tom, jak upravená verze algoritmu SARSA je velmi efektivní ve hře proti algoritmu Q-Learning. Při hraní proti algoritmu Counterfactual Regret Minimization je algoritmus SARSA ve značné nevýhodě.
Aplikace posilovaného učení v řízení Smart Home
Biel, Gabriel ; Zbořil, František (oponent) ; Janoušek, Vladimír (vedoucí práce)
This thesis investigates how machine learning can improve smart home management by focusing on optimizing temperature control and boosting energy efficiency. Specifically, it examines and compares two sophisticated reinforcement learning algorithms, Deep Q-Learning (DQL) and Proximal Policy Optimization (PPO). These models are tested in a simulated environment that replicates real-world conditions to evaluate their effectiveness in adapting to user behaviors and environmental changes. The study finds that the PPO model is particularly effective due to its stability and ability to predict when occupants will return, thus maintaining a comfortable temperature more efficiently. This research offers valuable insights into the practical applications of AI technologies in smart homes.
Game with Procedural Enemies
Teplan, Kristof ; Pečiva, Jan (oponent) ; Milet, Tomáš (vedoucí práce)
Procedural content generation has gained significant popularity, particularly in the video game industry. However, the area of procedural enemy generation in games remains relatively unexplored. This thesis focuses on the development of a rogue-like 2D game where the player battles against procedurally generated robots. The game is implemented in Unity Engine, utilizing a custom matrix L-system to generate robots from blocks with various functionalities. The artificial intelligence of the robots is powered by a neural network trained using reinforcement learning with the Unity ML-Agents toolkit. All systems are integrated into a final game that captures the classic features of the rogue-like genre.
Heuristiky pro hraní hry Scotland Yard
Cejpek, Michal ; Zbořil, František (oponent) ; Zbořil, František (vedoucí práce)
Tato práce se zabývá možností použití algoritmů hlubokého a posilovaného učení pro řešení problémů s neúplnou informací. Konkrétně je hlavním zkoumaným algoritmem PPO – Proximal Policy Optimization (optimalizace proximální politiky). K účelu otestování vhodnosti algoritmu PPO, byla vytvořena zjednodušená implementace hry Scotland Yard a také prostředí pro trénování a testování algoritmů. Z provedených experimentů této práce vzešlo, že algoritmus PPO je velmi vhodný na řešení problémů s neúplnou informací. Agenti při trénování velmi rychle získali pojem o cílech hry a vybudovali vhodné strategie pro naplnění těchto cílů.
Model-Based Reinforcement Learning for POMDPs
Smíšková, Lucie ; Andriushchenko, Roman (oponent) ; Češka, Milan (vedoucí práce)
Partially observable Markov decision processes allow us to model systems containing state uncertainty. They are useful when we have only partial information about the states ( so called observations). The aim of this thesis was to develop a method combining inductive synthesis and reinforcement learning to develop the best possible finite-state controller. This method was then implemented as an extension to the tool PAYNT.
Guided Reinforcement Learning for Motor Skills
Karabelly, Jozef ; Herout, Adam (oponent) ; Hradiš, Michal (vedoucí práce)
This thesis aims to present an overview of the current state of research in guided reinforcement learning for motor skills and identify potential research paths. Besides, the thesis introduces an improved method for learning physically simulated character animations based on the current techniques. The pre-trained model shows the ability to perform well on various new tasks. A custom dataset was collected explicitly for pre-training the model introduced in this thesis. Future improvements and possible research paths are proposed based on the experiments' results.
Using Reinforcement learning and inductive synthesis for designing robust controllers in POMDPs
Hudák, David ; Holík, Lukáš (oponent) ; Češka, Milan (vedoucí práce)
A significant challenge in sequential decision-making involves dealing with uncertainty, which arises from inaccurate sensors or only a partial knowledge of the agent's environment. This uncertainty is formally described through the framework of partially observable Markov decision processes (POMDPs). Unlike Markov decision processes (MDP), POMDPs only provide limited information about the exact state through imprecise observations. Decision-making in such settings requires estimating the current state, and generally, achieving optimal decisions is not tractable. There are two primary strategies to address this issue. The first strategy involves formal methods that concentrate on computing belief MDPs or synthesizing finite state controllers, known for their robustness and verifiability. However, these methods often struggle with scalability and require to know the underlying model. Conversely, informal methods like reinforcement learning offer scalability but lack verifiability. This thesis aims to merge these approaches by developing and implementing various techniques for interpreting and integrating the results and communication strategies between both methods. In this thesis, our experiments show that this symbiosis can improve both approaches, and we also show that our implementation overcomes other RL implementations for similar tasks.
Metody pro hraní hry 'Liar's Dice' s využítím dynamického programování
Lohn, Marek ; Šátek, Václav (oponent) ; Zbořil, František (vedoucí práce)
Tato práce se řeší metody hraní hry Liar's Dice s využitím dynamického programování. Jako přístup k této práci jsem si zvolil z posilovaného učení algoritmus SARSA, který je upravenou verzí algoritmu Q-Learning. Tento algoritmus jsem pak porovnával s již existujjícími přístupy tím způsobem že jsem jej nechal proti sobě hrát za pomocí aplikace kterou jsem si vytvořil v Unity. Porovnával jsem konkrétně s algoritmy Q-Learning a Counterfactual Regret Minimization. Podařilo se mi dosáhnou úspěšnosti 69,147\,\% ve hře proti Q-Learning a úspěšnosti pouze 29,84\,\% proti algoritmu Counterfactual Regret Minimization. Hlavním zjištěním této práce je, že upravená verze SARSA algoritmu je velmi efektivní ve hře proti Q-Learning algoritmu. Dalším zjištěním je, že při hraní proti Counterfactual Regret Minimization algoritmu je SARSA algoritmus ve značné nevýhodě.
Optimalizace řízení s pomocí zpětnovazebního učení na platformě Robocode
Pastušek, Václav ; Myška, Vojtěch (oponent) ; Burget, Radim (vedoucí práce)
Tato diplomová práce se zabývá optimalizací řízení tankového robota v prostředí Robocode za využití zpětnovazebního učení. Komplexita tohoto problému spadá do třídy EXPSPACE, což představuje výzvu, kterou nelze podcenit. Teoretická část práce pečlivě zkoumá platformu Robocode, koncepty zpětnovazebního učení a příslušné algoritmy, zatímco praktická část se zaměřuje na optimalizaci agenta, implementaci zpětnovazebních algoritmů a vytvoření uživatelsky přívětivého rozhraní pro snadné trénování a testování modelů. V rámci práce bylo natrénováno a otestováno celkem 64 modelů, jejichž data a parametry jsou vzájemně srovnávány a prezentovány v přiložených databázích a grafech. Nejlepší výsledky v průměrném počtu zásahů na epizodu dosáhly modely s označením v0.8.0 a v1.0.0. U prvního z nich se projevila určitá schopnost vyhýbání se střelám, zatímco u druhého byly pozorovány úspěšnější zásahy.
Multiagentní systém učící se maximalizovat komfort uživatelů v rámci Smart Home
Čábela, Radek ; Zbořil, František (oponent) ; Janoušek, Vladimír (vedoucí práce)
Tato práce přichází se způsobem, jak pracovat se zpětnou vazbou, inteligentními prvky domácnosti a tzv. agenty, aby ve výsledku došlo k minimalizaci přímých zásahů obyvatel domu do ovládání chodu domácnosti, a tudíž ke zvýšení jejich komfortu. Výsledná simulace demonstrující funkcionalitu návrhu, je zaměřena na problematiku regulace vytápění domácnosti.

Národní úložiště šedé literatury : Nalezeno 106 záznamů.   1 - 10dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.