National Repository of Grey Literature 106 records found  1 - 10nextend  jump to record: Search took 0.01 seconds. 
Methods for Playing the Game 'Liar's Dice' Using Dynamic Programming
Lohn, Marek ; Šátek, Václav (referee) ; Zbořil, František (advisor)
This project is about Methods of playing game Liar’s Dice using dynamic programming. The algorithm that was chosen for my study is SARSA, short for State Action Reward State Action algorithm. It is a modified version of algorithm named Q-Learning. It comparing algorithm SARSA with other algorithms by letting them play against each other in application, that was made in Unity Engine. Algorithms that were compared to SARSA are Q-Learning and Counterfactual Regret Minimization. SARSA achieved a 69,147 % win ratio in a game against Q-Learning. In games against Counterfactual Regret Minimization it was only 25 % win ratio. The main outcome of this study is that modified SARSA is effective against Q-Learning algorithm in a game of Liar’s Dice. On the other hand the SARSA algorithm was very ineffective against the Counterfactual Regret Minimization algorithm.
Aplikace posilovaného učení v řízení Smart Home
Biel, Gabriel ; Zbořil, František (referee) ; Janoušek, Vladimír (advisor)
Táto práca skúma, ako môže strojové učenie zlepšiť riadenie inteligentných domácností s dôrazom na optimalizáciu riadenia teploty a zvýšenie energetickej účinnosti. Konkrétne sa porovnávajú dva pokročilé algoritmy posilňovaného učenia, Deep Q-Learning (DQL) a Proximal Policy Optimization (PPO). Tieto modely sú testované v simulovanom prostredí, ktoré napodobňuje reálne podmienky, aby sa zhodnotila ich schopnosť prispôsobiť sa správaniam užívateľov a zmenám v prostredí. Ukázalo sa, že model PPO je obzvlášť účinný vďaka svojej stabilite a schopnosti predpovedať návrat obyvateľov. Tento výskum ponúka cenné poznatky o praktických aplikáciách AI technológií v inteligentných domácnostiach.
Game with Procedural Enemies
Teplan, Kristof ; Pečiva, Jan (referee) ; Milet, Tomáš (advisor)
Procedurálne generovanie obsahu si získalo veľkú popularitu, najmä v hernom priemysle. Oblasť procedurálneho generovania nepriateľov v hrách však zostáva relatívne nepreskúmaná. Táto práca sa zameriava na vývoj rogue-like 2D hry, kde hráč bojuje proti procedurálne generovaným robotom. Hra je implementovaná v Unity Engine, pričom sa využíva vlastný maticový L-systém na generovanie robotov z blokov s rôznymi funkciami. Umelá inteligencia robotov je poháňaná neurónovou sieťou, ktorá bola vycvičená pomocou posilovaného učenia s využitím nástroja Unity ML-Agents. Všetky systémy sú integrované do konečnej hry, ktorá zachytáva klasické vlastnosti rogue-like žánru.
Heuristics for the Scotland Yard Board Game
Cejpek, Michal ; Zbořil, František (referee) ; Zbořil, František (advisor)
This thesis explores the possibility of using deep and reinforcement learning algorithms to solve problems with incomplete information. The main algorithm under investigation is PPO – Proximal Policy Optimization. In order to test the suitability of the PPO algorithm, a simplified implementation of the Scotland Yard game was created as well as an environment for training and testing the algorithms. From performed experiments, it emerged that the PPO algorithm is very suitable for solving problems with incomplete information. The agents very quickly gained a sense of the game’s goals and built appropriate strategies to meet those goals through training.
Model-Based Reinforcement Learning for POMDPs
Smíšková, Lucie ; Andriushchenko, Roman (referee) ; Češka, Milan (advisor)
Markovské rozhodovací procesy s částečným pozorováním nám umožňují modelovat systémy obsahující stavovou neurčitost. Jsou užitečné, pokud máme pouze částečné informace o stavech (tak zvaná pozorování). Cílem této práce bylo vyvinout metodu kombinující induktivní syntézu a zpětnovazebné učení k vytvoření co nejlepšího konečně stavového kontroléru. Tato metoda poté byla implementována jako rozšíření nástroje PAYNT.
Guided Reinforcement Learning for Motor Skills
Karabelly, Jozef ; Herout, Adam (referee) ; Hradiš, Michal (advisor)
Cieľom tejto práce je prezentovať prehľad aktuálneho výskumu v oblasti posilovaného učenia pohybu s predlohou a identifikovať potenciálne smery výskumu. Okrem toho práca predstavuje vylepšenú metódu učenia fyzikálne simulovaných animácií postáv založenú na aktuálnych metódach. Predtrénovaný model ukazuje potenciál lepších výsledkov na rôznych nových úlohách. Vlastný dataset bol nazbieraný pre účely pretrénovania modelu predstaveného v tejto práci. Na základe výsledkov z vykonaných experimentov sú odprezentované možné budúce vylepšenia a smery výskumu.
Using Reinforcement learning and inductive synthesis for designing robust controllers in POMDPs
Hudák, David ; Holík, Lukáš (referee) ; Češka, Milan (advisor)
Jednou ze současných výzev při sekvenční rozhodováním je práce s neurčitostí, která je způsobena nepřesnými senzory či neúplnou informací o prostředích, ve kterých bychom chtěli dělat rozhodnutí. Tato neurčitost je formálně popsána takzvanými částečně pozorovatelnými Markovskými rozhodovacími procesy (POMDP), které oproti Markovským rozhodovacím procesům (MDP) nahrazují informaci o konkrétním stavu nepřesným pozorováním. Pro rozhodování v takových prostředích je nutno nějakým způsobem odhadovat současný stav a obecně tvorba optimálních politik v takových prostředích není rozhodnutelná. K vyrovnání se s touto výzvou existují dva zcela odlišné přístupy, kdy lze k problému přistupovat úplnými formálními metodami, a to buď s pomocí výpočtu beliefů či syntézou konečně stavových kontrolérů, nebo metodami založenými na nepřesné aproximaci současného stavu, reprezentované především hlubokým zpětnovazebným učením. Zatímco formální přístupy jsou schopné dělat verifikovatelná a robustní rozhodnutí pro malá prostředí, tak zpětnovazebné učení je schopné škálovat na reálné problémy. Tato práce se pak soustředí na spojení těchto dvou odlišných přístupů, kdy navrhuje různé metody jak pro interpretaci výsledku, tak pro vzájemné předávání nápověd. Experimenty v této práci ukazují, že z této symbiózy mohou těžit oba přístupy, ale také že zvolený přístup ke trénování agentů už sám o sobě řádově překonává současné systémy pro trénování agentů na podobných úlohách.
Methods for Playing the Game 'Liar's Dice' Using Dynamic Programming
Lohn, Marek ; Šátek, Václav (referee) ; Zbořil, František (advisor)
This project is about Methods of playing game Liar's Dice using dynamic programming. The algorithm that I chose for my study is SARSA, short for State Action Reward State Action algorithm. It is a modified version of algorithm named Q-Learning. I compared SARSA with other algorithms by letting them play against each other in application that I made in Unity Engine. Algorithms that I compared to SARSA are Q-Learning and Counterfactual Regret Minimization. I achieved a 69,147\,\% win ratio in a game against Q-Learning. In games against Counterfactual Regret Minimization it was only 29,84\,\% win ratio. The main outcome of this study is that SARSA, modified version of Q-Learning is effective against Q-Learning algorithm. On the other hand the SARSA algorithm was very ineffective against the Counterfactual Regret Minimization algorithm.
Optimization of control using reinforcement learning on the Robocode platform
Pastušek, Václav ; Myška, Vojtěch (referee) ; Burget, Radim (advisor)
This master's thesis focuses on optimizing the control of a tank robot in the Robocode environment using reinforcement learning. The complexity of this problem falls into the EXPSPACE class, presenting a challenge that cannot be underestimated. The theoretical part of the thesis meticulously examines the Robocode platform, concepts of reinforcement learning, and relevant algorithms, while the practical part focuses on optimizing the agent, implementing reinforcement learning algorithms, and creating a user-friendly interface for easy training and testing of models. A total of 64 models were trained and tested as part of the thesis, with their data and parameters compared and presented in accompanying databases and graphs. The best results in terms of average hits per episode were achieved by models labeled v0.8.0 and v1.0.0. The first model exhibited a certain ability to evade shots, while the second model showed more successful hits.
Multiagentní systém učící se maximalizovat komfort uživatelů v rámci Smart Home
Čábela, Radek ; Zbořil, František (referee) ; Janoušek, Vladimír (advisor)
This thesis comes with a solution, how to work with feedback, Smart Home devices and "agents" in a way that minimizes direct Smart Home parameters changes coming from house inhabitants and therefore increases their comfort. Resulting simulation demonstrating the funcionality of the system design is focused on problematics regarding changing temperature inside of a house.

National Repository of Grey Literature : 106 records found   1 - 10nextend  jump to record:
Interested in being notified about new results for this query?
Subscribe to the RSS feed.