Název:
Aplikace posilovaného učení v řízení autonomního vozidla
Překlad názvu:
Application of Reinforcement Learning in Autonomous Driving
Autoři:
Vosol, David ; Zbořil, František (oponent) ; Janoušek, Vladimír (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2022
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Tato práce se zabývá problematikou posilovaného učení aplikovaného na úlohu autonomního řízení vozidla. Nejprve je probrána nezbytná teorie posilovaného učení, která je zakončena představením nejmodernějších aktor-kritik metod. Z nich je vybrána metoda Proximal Policy Optimization , která je následně aplikována na tuto úlohu. Pro tento účel je také zvolen závodní simulátor TORCS. Naším cílem je naučit v simulovaném prostředí agenta autonomně řídit, s ohledem na jeho budoucí aplikaci v reálném prostředí v podobě zmenšeného RC modelu vozidla. Za tímto účelem jsou simulovány podmínky vzdáleného učení a ovládání vozidla v cloudu a to v podobě simulace ztráty paketů s daty od senzorů a aktuátorů nebo simulace zašuměných dat. Také jsou provedeny experimenty s cílem zjistit nejmenší počet senzorů, se kterým je agent schopen se úlohu naučit. Dále je experimentováno s využitím výstupu kamery vozidla. Jsou představeny různé návrhy architektur systému, mimo jiné i se zaměřením na co nejnižší hardwarové požadavky. Na závěr jsou prozkoumány vlastnosti naučeného agenta z pohledu generalizace v neznámém prostředí.
This thesis is focused on the topic of reinforcement learning applied to a task of autonomous vehicle driving. First, the necessary fundamental theory is presented, including the state-of-the-art actor-critic methods. From them the Proximal policy optimization algorithm is chosen for the application to the mentioned task. For the same purpose, the racing simulator TORCS is used. Our goal is to learn a reinforcement learning agent in a simulated environment with the focus on a future real-world application to an RC scaled model car. To achieve this, we simulate the conditions of remote learning and control in the cloud. For that, simulation of network packet loss, noisy sensory and actuator data is done. We also experiment with the least number of vehicle's sensors required for the agent to successfully learn the task. Experiments regarding the vehicle's camera output are also carried out. Different system architectures are proposed, among others also with the aim to minimize hardware requirements. Finally, we explore the generalization properties of a learned agent in an unknown environment.
Klíčová slova:
aktor-kritik; autonomní řízení vozidla; gradientní strategie; neuronové sítě; optimalizace blízké strategie; posilované učení; PPO; TORCS; actor-critic; autonomous driving; neural networks; policy gradients; PPO; proximal policy optimization; reinforcement learning; TORCS
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/207873