Národní úložiště šedé literatury Nalezeno 21 záznamů.  začátekpředchozí12 - 21  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Využití Robotického operačního systému (ROS) pro řízení kolaborativního robota UR3
Juříček, Martin ; Matoušek, Radomil (oponent) ; Parák, Roman (vedoucí práce)
Cílem bakalářské práce je vytvoření řídícího programu, jeho následné otestování a ověření funkčnosti pro kolaborativního robota UR3 od firmy Universal Robots. Řídící program je napsán v jazyce python a integruje možnosti řízení skrz Robotický operační systém, kdy lze dosahovat definovaného bodu pomocí předem simulovaných trajektorií algoritmů Q-learning, SARSA, Deep Q-learning, Deep SARSA, a nebo za pomocí pouze frameworku MoveIT. V práci je pojednáno průřezem o tématech kolaborativní robotiky, Robotického operačního systému, simulačního prostředí Gazebo, zpětnovazebního a hluboké zpětnovazebního učení. Závěrem je popsán samotný návrh a implementace řídícího programu s dílčími částmi.
Osadníci z Katanu
Novák, Daniel ; Hric, Jan (vedoucí práce) ; Pilát, Martin (oponent)
V této práci se zabýváme implementací stolní hry Osadníci z Katanu a umělé inteligence hrající tuto hru. Umělá inteligence je založena na kombinaci expecti- maxu a zpětnovazebního učení. S využitím zpětnovazebního učení se nám podařilo vyvinout agenta, který zvládá rozumně hrát. Strategii naučenou zpětnovazebním učením jsme úspěšně vylepšili využitím expectimaxu. Výsledný agent je schopný vyhrát proti průměrnému lidskému hráči.
Navigace pomocí hlubokých konvolučních sítí
Skácel, Dalibor ; Veľas, Martin (oponent) ; Hradiš, Michal (vedoucí práce)
Tato práce se věnuje problematice navigace a autonomního řízení za použití konvolučních neuronových sítí. Jsou zde představeny hlavní přístupy využívající zpracování senzorických vstupů uváděné v odborné literatuře a popsána teorie neuronových sítí, imitačního a zpětnovazebního učení. Dále jsou zde popsány nástroje a metody vhodné pro zpracování systému řízení. Jsou vytvořeny dva typy modelů pro řízení vozidel v simulačním prostředí. Modely využívají učících algoritmů DAGGER a DDPG. Vytvořené modely jsou otestovány v prostředí simulátoru TORCS.
Posilované učení pro 3D hry
Beránek, Michal ; Herout, Adam (oponent) ; Hradiš, Michal (vedoucí práce)
Práce se zabývá učením neuronové sítě na jednoduchých úlohách v prostředí 3D střílečky Doom, zprostředkovaném výzkumnou platformou ViZDoom. Hlavním cílem je vytvoření agenta, který se učí na několika úlohách zároveň. Použitým algoritmem posilovaného učení je Rainbow, který kombinuje několik vylepšení algoritmu DQN. Pro učení na více úlohách jsem navrhnul a otestoval dvě různé architektury sítě. Jedna z nich byla úspěšná a po relativně krátké době trénování dokázal agent získat téměř 50 % z maximální možné odměny. Klíčovým prvkem úspěchu je Embedding vrstva pro parametrický popis prostředí jednotlivých úloh. Hlavním zjištěním je, že Rainbow je schopen učit se v 3D prostředí a s pomocí Embedding vrstvy i na více úlohách zároveň.
Hraní her pomocí neuronových sítí
Buchal, Petr ; Kolář, Martin (oponent) ; Hradiš, Michal (vedoucí práce)
Cílem této práce je naučit neuronovou síť pohybu v prostředích s klasickou kontrolou řízení, hraní tahové hry 2048 a několika Atari her. Jedná se o oblast zpětnovazebního učení. Jako zpětnovazební algoritmus využívající neuronové sítě jsem použil Hluboké Q-učení. Ten jsem pro zvýšení efektivity učení obohatil o několik vylepšení. Mezi vylepšení patří přidání cílové sítě, DDQN, duální architektura neuronové sítě a prioritní vzpomínková paměť. Experimenty s klasickou kontrolou řízení zjistily, že nejvíce zvedá efektivitu učení přidání cílové sítě. V prostředích her dosáhlo Hluboké Q-učení několikanásobně lepších výsledků než náhodný hráč. Výsledky a jejich analýza mohou být využity ke vhledu do problematiky zpětnovazebních algoritmů využívajících neuronové sítě a zdokonalení použitých postupů.
Navigace pomocí hlubokých konvolučních sítí
Skácel, Dalibor ; Veľas, Martin (oponent) ; Hradiš, Michal (vedoucí práce)
V této práci se věnuji problematice navigace a autonomního řízení za použití konvolučních neuronových sítí. Představuji zde hlavní přístupy využívající zpracování senzorických vstupů uváděné v odborné literatuře a popisuji teorii neuronových sítí, imitačního a zpětnovazebního učení. Dále rozebírám nástroje a metody vhodné pro zpracování systému řízení. V rámci práce jsem vytvořil dva typy modelů pro řízení vozidel v simulačním prostředí. Modely využívají učících algoritmů Dataset Aggregation a Deep Deterministic Policy Gradient. Vytvořené modely jsem otestoval v prostředí simulátoru TORCS a porovnal s dostupnými zdroji.
Extending Hotelling's location model into Agent-based domain
Vainer, Jan ; Kukačka, Jiří (vedoucí práce) ; Smutná, Šarlota (oponent)
Tato práce zkoumá chování adaptivních agentů v Hotellingově modelu prostorové diferenciace. Simulujeme chování dvou agentů v kontextu modelu prostorové dife- renciace, kteří pro adaptaci využívají Nash-Q algoritmus. Tradiční modely z teorie her jsou mnohdy zatíženy silnými předpoklady, jako je racionalita a perfektní in- formovanost agentů. Zkoumáme, jaké změny či zdokonalení výsledků technika Nash-Q učení přináší v porovnání s původním analytickým řešením Hotellingova modelu prostorové diferenciace. Zjišťujeme, že za použití Nash-Q učícího algoritmu a kvadratických nákladů spotřebitele se agenti, kteří si dostatečně váží budoucích zisků, naučí chování, které je podobné agresivní tržní strategii, kdy obě firmy začnou vytvářet podobné produkty a soutěží pouze v ceně za účelem odstranění soupeře z trhu. Toto chování připomíná Princip minimální diferenciace z Hotellingova originálního modelu s lineárními náklady spotřebitele. Náš výsledek je překvapivý, protože jsme v naší simulaci použili kvadratické náklady spotřebitele, což by naopak mělo vést k maximální diferenciaci produktů. Naše výsledky naznačují, že Princip minimální diferenciace by mohl být zdůvodněn na základě opakované interakce mezi agenty a optimalizace v dlouhodobém horizontu. Dále vyhodnocujeme vhodnost metod zpětnovazebného učení v...
Zpětnovazební učení pro řešení herních algoritmů
Daňhelová, Jana ; Uher, Václav (oponent) ; Kolařík, Martin (vedoucí práce)
Bakalářská práce Zpětnovazební učení pro řešení herních algoritmů je rozdělena do dvou částí. V teoretické části jsou popsány a srovnávány základní metody zpětnovazebního učení, přičemž zvláštní pozornost je věnována metodám aktivního učení – Q-učení a hlubokému učení. Praktická část je zaměřena na aplikaci metody deep learning na hru Had. Výsledky jsou prezentovány ve formě programu napsaného v programovacím jazyku Python, který se skládá z herního prostředí vytvořeného v PyGame, modelu konvoluční neuronové sítě zkonstruovaného v knihovně Keras a herního agenta. Výstupem programu je několik typů datasetů ve formátu csv. Získaná data, obsahující hodnoty jednotlivých parametrů jako počet epoch, přesnost, ztráta nebo výše odměny, mohou být následně použita jako podklady pro další zpracování.
Using reinforcement learning to learn how to play text-based games
Zelinka, Mikuláš ; Kadlec, Rudolf (vedoucí práce) ; Lisý, Viliam (oponent)
Schopnost naučit se optimálnímu chování v prostředích, kde jsou stavy i akce vyjádřeny v přirozeném jazyce, by se dala aplikovat na řadu skutečných problémů, jako je optimalizace dialogových systémů. Pro tento učící problém jsou vhodnou doménou textové hry s větším počtem možných konců se zpětnou vazbou v podobně číselných ohodnocení. S její pomocí můžeme v tomto kontextu využít technik zpětnovazebního učení pro současné učení vhodné reprezentace textových dat a rozhodovacích pravidel. Představujeme model obecného agenta schopného hrát textové hry a zkoumáme jeho schopnost generalizace a přenosu získaných znalostí na nová prostředí. Rovněž demonstrujeme, že se agent dokáže naučit hrát více textových her najednou. Dále prezentujeme otevřenou knihovnu pyfiction, která sjednocuje přístup k různým textovým hrám a doufáme, že společně s agentem, který je její součástí, by v budoucnu mohla sloužit jako referenční rámec pro podobné úlohy.
Adaptive Agent in a FPS Game
Witzany, Tomáš ; Kadlec, Rudolf (vedoucí práce) ; Hric, Jan (oponent)
V této práci je navržen a implementován adaptivní protihráč v počítačové hře Unreal Tournament v jejím módu Deathmatch. Agent byl navržen pomocí zpětnovazebního učení a implementován na platformě Pogamut. Pro stavovou abstrakci byl použit clusterovací algoritmus k-means. Dále byl na platformě Pogamut vyvinut framework pro testování výkonu agentů. Tento framework byl použit pro provedení množství experimentů testující různé strategie pro výběr akcí a také byly otestovány různé parametry Q-Learning algoritmu. Výsledné chování má výkon srovnatelný s implementacemi zpětnovazebního učení popsanými v dostupné literatuře.

Národní úložiště šedé literatury : Nalezeno 21 záznamů.   začátekpředchozí12 - 21  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.