Original title:
Neuronové sítě pro hru gomoku
Translated title:
Playing Gomoku with Neural Networks
Authors:
Slávka, Michal ; Kolář, Martin (referee) ; Hradiš, Michal (advisor) Document type: Bachelor's theses
Year:
2019
Language:
eng Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[eng][cze]
Táto práca sa zaoberá použitím algoritmu AlphaZero pre hru Gomoku. AlphaZero je založený na spätnoväzbnom učení a k trénovaniu nemusia byť využité žiadne existujúce datasety. Trénovanie prebieha iba na hrách algoritmu samého so sebou. AlphaZero používa algoritmus na prehľadávanie stromu, pre zlepšenie stratégie. Na vylepšnej stratégii sa následne trénuje neurónová sieť. Tento prístup bol úspešný v hrách proti existujúcim algoritmom. Generovanie trénovacích dát vysokej kvality si vyžaduje veľa výpočetne náročných iterácií trénovania a generovania dát. Experimenty ukázali, že každou iteráciou sa algoritmus zlepšuje, čo naznačuje, že je ešte miesto na zlepšenie, ale množstvo iterácií nedostačovalo na to, aby bol poriadne natrénovaný.
This thesis explores the usage of AlphaZero algorithm for the game of Gomoku. AlphaZero is a reinforcement learning algorithm, which does not require any existing datasets and is able to improve only by using self-play. It uses a tree search for policy improvement, which is subsequently used for training. This approach was able to defeat the previous state of the art methods. Generating training data of high quality requires a lot of computationally expensive iterations, which makes them algorithm slow to train. Experiments show that the strength of the play is growing with each subsequent iteration, this might indicate that it still has room for improvement with more training and that it has not reached its full potential.
Keywords:
AlphaZero; backpropagation; Monte Carlo tree search; neurónové siete; reinforcement learning; AlphaZero; backpropagation; Monte Carlo tree search; neural networks; reinforcement learning
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/180191