|
Plánování cesty robotu pomocí posilovaného učení
Veselovský, Michal ; Liška, Radovan (oponent) ; Dvořák, Jiří (vedoucí práce)
Tato práce se zabývá plánováním cesty pro autonomního robota v prostředí se statickými překážkami. Součástí práce je analýza různých přístupů k plánování cesty robota, a v implementační části popis metod využívajících posilovaného učení a experimenty s nimi. Hlavními výstupy práce jsou funkční algoritmy pro plánování cesty založené na Q-učení, ověření jejich funkčnosti a vzájemné srovnání.
|
| |
| |
| |
| |
| |
| |
|
Stochastická strategie při Q-učení užitá pro řízení AML
Březina, Tomáš ; Krejsa, Jiří ; Věchet, S.
V poslední době je značná pozornost věnována metodám opakovaně posilovaného učení (RL). Článek se zabývá zlepšením RL metody bez modelu známé jako Q-učení, použité na modelu aktivního magnetického ložiska. Stochastická strategie a adaptivní integrační krok zvýšily rychlost učení přibližně stokrát. Nemožnost spřaženého použití navrženého zlepšení je nevýhodou, i když jej může být použito při předučení s následným provedením spřaženého doučování.
|
|
Řídící systém čtyřnohého robota založený na učení
Březina, Tomáš ; Houška, P. ; Singule, V.
V příspěvku je popsán možný diskretizační postup spojitého stavového prostoru čtyřnohého robota užitím simultánních kompozicí chování. Kompozice jsou generovány pomocí instancí dvou základních řídících členů. Cílem je automaticky vyvinout způsob chůze. Přípustné kompoziční strategie jsou implementovány prostřednictvím nedeterministického konečného automatu. Počet stavů a přechodů může být podstatně redukován již v etapě návrhu automatu.
|
|
Q-learning used for control of AMB: reduced state definition
Březina, Tomáš ; Krejsa, Jiří
Previous work showed that stochastic strategy improved model free RL method known as Q-learning used on active magnetic bearing (AMB) model. So far the position, velocity and acceleration were used to describe the state of the system. This paper shows simplified version of controller which uses reduced state definition - position and velocity only. Furthermore the controlled initial conditions domain and its development during learning are shown.
|