Název:
Posilované učení pro hru typu Bomberman
Překlad názvu:
Reinforcement Learning for Bomberman Type Game
Autoři:
Adamčiak, Jakub ; Beran, Vítězslav (oponent) ; Hradiš, Michal (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2022
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Cieľom tejto bakalárksej práce je návrh, implementácia a trénovanie modelov posilňovaného učenia na hru typu Bomberman. Je postavená na prostredí Bomberland od firmy CoderOne. Toto prostredie bolo vyvinuté za účelom vzdelávania a výskumu v odvetí umelej inteligencie. V tejto práci rozoberám rôzne nastavenia a problémy s implementovaním agenta do prostredia. Vyskúšal som 2 politiky (MLP a CNN), 2 algoritmy (PPO a A2C) a 5 druhov neurónových sietí pre extrakciu vlastností za pomoci knižníc stable baselines 3 a pytorch. Celkový čas trénovania týchto modelov bol dokopy 1207 reálnych hodín, 4168 strojových hodín a 271 miliónov herných krokov. Aj keď bolo trénovanie neúspešné, táto práca ukazuje proces implementácie modelu posilňovaného učenia do prostredia Gym.
This bachelor's thesis aims to develop, implement and train reinforcement learning models for a Bomberman-type game. It is based on Bomberland environment from CoderOne. This environment was created for education and research in the field of artificial intelligence. In this thesis I tackle the settings and problems of implementing agent into the environment. I used 2 policies (MLP and CNN), 2 algorithms (PPO and A2C) and 5 setups of neural networks for feature extraction with the use of libraries stable baselines 3 and pytorch. Total training time resulted in 1207 real-world hours, 4168 computing hours and 271 milions of time steps. Although the training was not successful, this thesis shows the process of implementing a reinforcement learning model into a Gym environment.
Klíčová slova:
A2C; AI; ai-gym; bomberman; CNN; hry; konvolučné neurónové siete; ML; posilované učenie; PPO; python; pytorch; RL; stable baselines3; strojové učenie; umelá inteligencia; A2C; AI; ai-gym; artificial inteligence; bomberman; CNN; convolutional neural networks; games; machine learning; ML; PPO; python; pytorch; reinforcement learning; RL; stable baselines3
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/207436