Hraní nedeterministických her s učením
Překlad názvu:
Playing of Nondeterministic Games with Learning
Bukovský, Marek ; Rozman, Jaroslav (oponent) ; Zbořil, František (vedoucí práce) Typ dokumentu: Diplomové práce
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Práce se věnuje studiu a implementaci metod použitých pro učení z průběhu hraní. Zvolenou hrou pro tuhle práci jsou Vrhcáby. Algoritmus použitý pro učení neuronové sítě se nazývá učení z časového rozdílu s použitím stop vhodnosti. Tento algoritmus je známý i pod jménem TD(lambda). V teoretické části práce jsou popsány algoritmy pro hraní her bez učení, úvod do posilovaného učení, učení z časových rozdílů a úvod do umělých úvod neuronových sítí. Praktická část se zabývá aplikováním kombinace neuronových sítí a TD(lambda) algoritmů.
The thesis is dedicated to the study and implementation of methods used for learning from the course of playing. The chosen game for this thesis is Backgammon. The algorithm used for training neural networks is called the temporal difference learning with use of eligible traces. This algorithm is also known as TD(lambda). The theoretical part describes algorithms for playing games without learning, introduction to reinforcement learning, temporal difference learning and introduction to artificial neural networks. The practical part deals with application of combination of neural networks and TD(lambda) algorithms.
Klíčová slova:
hraní her s učením; nedeterministické hry; posilované učení; umělé neurónové sítě; učení z časového rozdílu; Vrhcáby; artificial neural network; Backgammon; nondeterministic games; playing games with learning; reinforcement learning; temporal difference learning
Instituce: Vysoké učení technické v Brně
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/54193