Název:
Optimalizace řízení s pomocí zpětnovazebního učení na platformě Robocode
Překlad názvu:
Optimization of control using reinforcement learning on the Robocode platform
Autoři:
Pastušek, Václav ; Myška, Vojtěch (oponent) ; Burget, Radim (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2024
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstrakt: [cze][eng]
Tato diplomová práce se zabývá optimalizací řízení tankového robota v prostředí Robocode za využití zpětnovazebního učení. Komplexita tohoto problému spadá do třídy EXPSPACE, což představuje výzvu, kterou nelze podcenit. Teoretická část práce pečlivě zkoumá platformu Robocode, koncepty zpětnovazebního učení a příslušné algoritmy, zatímco praktická část se zaměřuje na optimalizaci agenta, implementaci zpětnovazebních algoritmů a vytvoření uživatelsky přívětivého rozhraní pro snadné trénování a testování modelů. V rámci práce bylo natrénováno a otestováno celkem 64 modelů, jejichž data a parametry jsou vzájemně srovnávány a prezentovány v přiložených databázích a grafech. Nejlepší výsledky v průměrném počtu zásahů na epizodu dosáhly modely s označením v0.8.0 a v1.0.0. U prvního z nich se projevila určitá schopnost vyhýbání se střelám, zatímco u druhého byly pozorovány úspěšnější zásahy.
This master's thesis focuses on optimizing the control of a tank robot in the Robocode environment using reinforcement learning. The complexity of this problem falls into the EXPSPACE class, presenting a challenge that cannot be underestimated. The theoretical part of the thesis meticulously examines the Robocode platform, concepts of reinforcement learning, and relevant algorithms, while the practical part focuses on optimizing the agent, implementing reinforcement learning algorithms, and creating a user-friendly interface for easy training and testing of models. A total of 64 models were trained and tested as part of the thesis, with their data and parameters compared and presented in accompanying databases and graphs. The best results in terms of average hits per episode were achieved by models labeled v0.8.0 and v1.0.0. The first model exhibited a certain ability to evade shots, while the second model showed more successful hits.
Klíčová slova:
databáze; epizodická paměť; hluboká Q síť; hluboké učení; Java; klient-server; Python; Q-učení; Robocode; strojové učení; TCP/IP; TensorFlow; uživatelské rozhraní; zpětnovazební učení; client-server; database; deep learning; deep Q network; episodic memory; Java; machine learning; Python; Q-learning; reinforcement learning; Robocode; TCP/IP; TensorFlow; user interface
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: https://hdl.handle.net/11012/246086