Národní úložiště šedé literatury Nalezeno 61 záznamů.  1 - 10dalšíkonec  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Metody pro hraní hry Liar's Dice s využítím dynamického programování
Lohn, Marek ; Šátek, Václav (oponent) ; Zbořil, František (vedoucí práce)
Tato práce řeší metody hraní hry Liar’s Dice s využitím dynamického programování. Pro přístup k této práci byl zvolen algoritmus posilovaného učení SARSA, který je upravenou verzí algoritmu Q-Learning. Tento algoritmus byl následně porovnáván s již existujícími přístupy takovým způsobem, že byl ponechán hrát proti nim za pomocí aplikace, která byla vytvořena v herním engine Unity. Porovnávání proběhlo konkrétně nad algoritmy Q-Learning a Counterfactual Regret Minimization. Ve výsledku bylo dosaženo úspěšnosti 69,147 % ve hře proti Q-Learning a úspěšnosti pouze 25 % proti algoritmu Counterfactual Regret Minimization. Tato práce poskytuje hlavní přehled o tom, jak upravená verze algoritmu SARSA je velmi efektivní ve hře proti algoritmu Q-Learning. Při hraní proti algoritmu Counterfactual Regret Minimization je algoritmus SARSA ve značné nevýhodě.
Heuristiky pro hraní hry Scotland Yard
Cejpek, Michal ; Zbořil, František (oponent) ; Zbořil, František (vedoucí práce)
Tato práce se zabývá možností použití algoritmů hlubokého a posilovaného učení pro řešení problémů s neúplnou informací. Konkrétně je hlavním zkoumaným algoritmem PPO – Proximal Policy Optimization (optimalizace proximální politiky). K účelu otestování vhodnosti algoritmu PPO, byla vytvořena zjednodušená implementace hry Scotland Yard a také prostředí pro trénování a testování algoritmů. Z provedených experimentů této práce vzešlo, že algoritmus PPO je velmi vhodný na řešení problémů s neúplnou informací. Agenti při trénování velmi rychle získali pojem o cílech hry a vybudovali vhodné strategie pro naplnění těchto cílů.
Using Reinforcement learning and inductive synthesis for designing robust controllers in POMDPs
Hudák, David ; Holík, Lukáš (oponent) ; Češka, Milan (vedoucí práce)
A significant challenge in sequential decision-making involves dealing with uncertainty, which arises from inaccurate sensors or only a partial knowledge of the agent's environment. This uncertainty is formally described through the framework of partially observable Markov decision processes (POMDPs). Unlike Markov decision processes (MDP), POMDPs only provide limited information about the exact state through imprecise observations. Decision-making in such settings requires estimating the current state, and generally, achieving optimal decisions is not tractable. There are two primary strategies to address this issue. The first strategy involves formal methods that concentrate on computing belief MDPs or synthesizing finite state controllers, known for their robustness and verifiability. However, these methods often struggle with scalability and require to know the underlying model. Conversely, informal methods like reinforcement learning offer scalability but lack verifiability. This thesis aims to merge these approaches by developing and implementing various techniques for interpreting and integrating the results and communication strategies between both methods. In this thesis, our experiments show that this symbiosis can improve both approaches, and we also show that our implementation overcomes other RL implementations for similar tasks.
Metody pro hraní hry 'Liar's Dice' s využítím dynamického programování
Lohn, Marek ; Šátek, Václav (oponent) ; Zbořil, František (vedoucí práce)
Tato práce se řeší metody hraní hry Liar's Dice s využitím dynamického programování. Jako přístup k této práci jsem si zvolil z posilovaného učení algoritmus SARSA, který je upravenou verzí algoritmu Q-Learning. Tento algoritmus jsem pak porovnával s již existujjícími přístupy tím způsobem že jsem jej nechal proti sobě hrát za pomocí aplikace kterou jsem si vytvořil v Unity. Porovnával jsem konkrétně s algoritmy Q-Learning a Counterfactual Regret Minimization. Podařilo se mi dosáhnou úspěšnosti 69,147\,\% ve hře proti Q-Learning a úspěšnosti pouze 29,84\,\% proti algoritmu Counterfactual Regret Minimization. Hlavním zjištěním této práce je, že upravená verze SARSA algoritmu je velmi efektivní ve hře proti Q-Learning algoritmu. Dalším zjištěním je, že při hraní proti Counterfactual Regret Minimization algoritmu je SARSA algoritmus ve značné nevýhodě.
Multiagentní systém učící se maximalizovat komfort uživatelů v rámci Smart Home
Čábela, Radek ; Zbořil, František (oponent) ; Janoušek, Vladimír (vedoucí práce)
Tato práce přichází se způsobem, jak pracovat se zpětnou vazbou, inteligentními prvky domácnosti a tzv. agenty, aby ve výsledku došlo k minimalizaci přímých zásahů obyvatel domu do ovládání chodu domácnosti, a tudíž ke zvýšení jejich komfortu. Výsledná simulace demonstrující funkcionalitu návrhu, je zaměřena na problematiku regulace vytápění domácnosti.
Aplikace posilovaného učení při řízení modelu vozidla
Maslowski, Petr ; Uhlíř, Václav (oponent) ; Šůstek, Martin (vedoucí práce)
Tato práce se zabývá vytvořením autonomního agenta pro řízení modelu vozidla. Rozhodování agenta je řízeno pomocí posilovaného učení (reinforcement learning) s využitím neuronových sítí. Agent získává snímky z přední kamery vozidla a na základě jejich interpretace vybírá vhodné akce pro řízení vozidla. V rámci práce jsem navrhl několik funkcí odměn a s vytvořenými modely jsem experimentoval úpravou hyperparametrů. Výsledný agent pak simuluje řízení vozidla na silnici. Výsledek této práce ukazuje možný přístup k ovládání autonomního vozidla, které se učí řídit metodou strojového učení v simulátoru CARLA.
Řízení entit ve strategické hře založené na multiagentních systémech
Knapek, Petr ; Kočí, Radek (oponent) ; Zbořil, František (vedoucí práce)
Tato práce se zaměřuje na návrh a implementaci systému podpory učení a plánování agentů schopných hry real-time strategických her typu StarCraft. Budou vysvětleny problémy ovládání herních objektů a protivníků počítačem a představeny obvykle používané způsoby řešení. Na základě analýzy je navržen a implementován nový systém využívající multiagentního přístupu k ovládání hry a metod strojového učení, který je schopný porážet protivníky a přizpůsobovat se novým výzvám.
Využití opakovaně posilovaného učení pro řízení čtyřnohého robotu
Ondroušek, Vít ; Maga,, Dušan (oponent) ; Maňas, Pavel (oponent) ; Singule, Vladislav (oponent) ; Březina, Tomáš (vedoucí práce)
Disertační práce je zaměřena na využití opakovaně posilovaného učení pro řízení chůze čtyřnohého robotu. Hlavním cílem je předložení adaptivního řídicího systému kráčivého robotu, který budem schopen plánovat jeho chůzi pomocí algoritmu Q-učení. Tohoto cíle je dosaženo komplexním návrhem třívrstvé architektury založené na paradigmatu DEDS. Předkládané řešení je vystavěno na návrhu množiny elementárních reaktivních chování. Prostřednictvím simultáních aktivací těchto elementů je vyvozena množina kompozitních řídicích členů. Obě množiny zákonů řízení jsou schopny operovat nejen na rovinném, ale i v členitém terénu. Díky vhodné diskretizaci spojitého stavového prostoru je sestaven model všechn možných chování robotu pod vlivem aktivací uvedených základních i složených řídicích členů. Tento model chování je využit pro nalezení optimálních strategií řízení robotu prostřednictvím schématu Q-učení. Schopnost řídicí jednotky je ukázána na řešení tří komplexních úloh: rotace robotu, chůze robotu v přímém směru a chůze po nakloněné rovině. Tyto úlohy jsou řešeny prostřednictvím prostorových dynamických simulací čtyřnohého kráčivého robotu se třemi stupni volnosti na každou z noh. Výsledné styly chůze jsou vyhodnoceny pomocí kvantitativních standardizovaných ukazatelů. Součástí práce jsou videozáznamy verifikačních experimentů ukazující činnost elementárních a kompozitních řídicích členů a výsledné naučené styly chůze robotu.
Posilované učení pro hraní robotického fotbalu
Bočán, Hynek ; Škoda, Petr (oponent) ; Smrž, Pavel (vedoucí práce)
Tato práce se zabývá tvorbou umělé inteligence schopné ovládat robotického hráče fotbalu simulovaného v prostředí SimSpark. Vytvořená umělá inteligence rozšiřuje již hotového agenta, který poskytuje implementaci základních dovedností jako je orientace na hřišti, pohyb v osmi směrech a nebo driblování s balonem. Umělá inteligence se stará o výběr nejvhodnější akce v závislosti na situaci na hřišti. Pro její implementaci byla použita metoda posilovaného učení - Q-learning. Pro výběr nejlepší akce je situace na hřišti převedena do formy 2D obrazu s několika rovinami. Tento obraz je následně analyzován hlubokou konvoluční neuronovou sítí implementované pomocí C++ knihovny DeepCL.
Zlepšování systému pro automatické hraní hry Starcraft II v prostředí PySC2
Krušina, Jan ; Škoda, Petr (oponent) ; Smrž, Pavel (vedoucí práce)
Tato práce se zabývá vytvořením automatického systému pro hraní strategické hry v reálném čase Starcraft II. Model je trénován ze záznamů her hráčů a dále využívá technik posilovaného učení pro zlepšování vnitřního systému bota. Záměr je vytvořit systém schopný hrát hru jako celek, přičemž staví na frameworku PySC2 pro strojové učení. Vytvořený bot je poté testován proti skriptovaným botům ve hře.

Národní úložiště šedé literatury : Nalezeno 61 záznamů.   1 - 10dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.