Original title:
Metody pro hraní hry 'Liar's Dice' s využítím dynamického programování
Translated title:
Methods for Playing the Game 'Liar's Dice' Using Dynamic Programming
Authors:
Lohn, Marek ; Šátek, Václav (referee) ; Zbořil, František (advisor) Document type: Bachelor's theses
Year:
2023
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Tato práce se řeší metody hraní hry Liar's Dice s využitím dynamického programování. Jako přístup k této práci jsem si zvolil z posilovaného učení algoritmus SARSA, který je upravenou verzí algoritmu Q-Learning. Tento algoritmus jsem pak porovnával s již existujjícími přístupy tím způsobem že jsem jej nechal proti sobě hrát za pomocí aplikace kterou jsem si vytvořil v Unity. Porovnával jsem konkrétně s algoritmy Q-Learning a Counterfactual Regret Minimization. Podařilo se mi dosáhnou úspěšnosti 69,147\,\% ve hře proti Q-Learning a úspěšnosti pouze 29,84\,\% proti algoritmu Counterfactual Regret Minimization. Hlavním zjištěním této práce je, že upravená verze SARSA algoritmu je velmi efektivní ve hře proti Q-Learning algoritmu. Dalším zjištěním je, že při hraní proti Counterfactual Regret Minimization algoritmu je SARSA algoritmus ve značné nevýhodě.
This project is about Methods of playing game Liar's Dice using dynamic programming. The algorithm that I chose for my study is SARSA, short for State Action Reward State Action algorithm. It is a modified version of algorithm named Q-Learning. I compared SARSA with other algorithms by letting them play against each other in application that I made in Unity Engine. Algorithms that I compared to SARSA are Q-Learning and Counterfactual Regret Minimization. I achieved a 69,147\,\% win ratio in a game against Q-Learning. In games against Counterfactual Regret Minimization it was only 29,84\,\% win ratio. The main outcome of this study is that SARSA, modified version of Q-Learning is effective against Q-Learning algorithm. On the other hand the SARSA algorithm was very ineffective against the Counterfactual Regret Minimization algorithm.
Keywords:
AI; AI learning; dynamic programming; game; Liars Dice; methods; playing; programming; reinforcement learning; AI; dynamické programování; her; hraní; hry; Liars dice; metody; posilované učení; programovaní; umělá inteligence; učení umělé inteligence
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: https://hdl.handle.net/11012/246887