keywords:"zpětnovazební učení" - Výsledky hledání - Digitální repozitář

host :: přihlásit Digitální repozitář
		Hledej		Nový záznam		Nápověda		O repozitáři

Hlavní stránka > Výsledky hledání: keywords:"zpětnovazební učení"

Hledej:

Tipy pro vyhledávaní :: Rozšířené hledání

Hledej ve sbírkách:

Seřadit podle:	Zobrazit výsledky:	Výstupní formát:

	Využití Robotického operačního systému (ROS) pro řízení kolaborativního robota UR3 Juříček, Martin ; Matoušek, Radomil (oponent) ; Parák, Roman (vedoucí práce) Cílem bakalářské práce je vytvoření řídícího programu, jeho následné otestování a ověření funkčnosti pro kolaborativního robota UR3 od firmy Universal Robots. Řídící program je napsán v jazyce python a integruje možnosti řízení skrz Robotický operační systém, kdy lze dosahovat definovaného bodu pomocí předem simulovaných trajektorií algoritmů Q-learning, SARSA, Deep Q-learning, Deep SARSA, a nebo za pomocí pouze frameworku MoveIT. V práci je pojednáno průřezem o tématech kolaborativní robotiky, Robotického operačního systému, simulačního prostředí Gazebo, zpětnovazebního a hluboké zpětnovazebního učení. Závěrem je popsán samotný návrh a implementace řídícího programu s dílčími částmi. Úplný záznam
	Osadníci z Katanu Novák, Daniel ; Hric, Jan (vedoucí práce) ; Pilát, Martin (oponent) V této práci se zabýváme implementací stolní hry Osadníci z Katanu a umělé inteligence hrající tuto hru. Umělá inteligence je založena na kombinaci expecti- maxu a zpětnovazebního učení. S využitím zpětnovazebního učení se nám podařilo vyvinout agenta, který zvládá rozumně hrát. Strategii naučenou zpětnovazebním učením jsme úspěšně vylepšili využitím expectimaxu. Výsledný agent je schopný vyhrát proti průměrnému lidskému hráči. Úplný záznam
	Navigace pomocí hlubokých konvolučních sítí Skácel, Dalibor ; Veľas, Martin (oponent) ; Hradiš, Michal (vedoucí práce) Tato práce se věnuje problematice navigace a autonomního řízení za použití konvolučních neuronových sítí. Jsou zde představeny hlavní přístupy využívající zpracování senzorických vstupů uváděné v odborné literatuře a popsána teorie neuronových sítí, imitačního a zpětnovazebního učení. Dále jsou zde popsány nástroje a metody vhodné pro zpracování systému řízení. Jsou vytvořeny dva typy modelů pro řízení vozidel v simulačním prostředí. Modely využívají učících algoritmů DAGGER a DDPG. Vytvořené modely jsou otestovány v prostředí simulátoru TORCS. Úplný záznam
	Posilované učení pro 3D hry Beránek, Michal ; Herout, Adam (oponent) ; Hradiš, Michal (vedoucí práce) Práce se zabývá učením neuronové sítě na jednoduchých úlohách v prostředí 3D střílečky Doom, zprostředkovaném výzkumnou platformou ViZDoom. Hlavním cílem je vytvoření agenta, který se učí na několika úlohách zároveň. Použitým algoritmem posilovaného učení je Rainbow, který kombinuje několik vylepšení algoritmu DQN. Pro učení na více úlohách jsem navrhnul a otestoval dvě různé architektury sítě. Jedna z nich byla úspěšná a po relativně krátké době trénování dokázal agent získat téměř 50 % z maximální možné odměny. Klíčovým prvkem úspěchu je Embedding vrstva pro parametrický popis prostředí jednotlivých úloh. Hlavním zjištěním je, že Rainbow je schopen učit se v 3D prostředí a s pomocí Embedding vrstvy i na více úlohách zároveň. Úplný záznam
	Hraní her pomocí neuronových sítí Buchal, Petr ; Kolář, Martin (oponent) ; Hradiš, Michal (vedoucí práce) Cílem této práce je naučit neuronovou síť pohybu v prostředích s klasickou kontrolou řízení, hraní tahové hry 2048 a několika Atari her. Jedná se o oblast zpětnovazebního učení. Jako zpětnovazební algoritmus využívající neuronové sítě jsem použil Hluboké Q-učení. Ten jsem pro zvýšení efektivity učení obohatil o několik vylepšení. Mezi vylepšení patří přidání cílové sítě, DDQN, duální architektura neuronové sítě a prioritní vzpomínková paměť. Experimenty s klasickou kontrolou řízení zjistily, že nejvíce zvedá efektivitu učení přidání cílové sítě. V prostředích her dosáhlo Hluboké Q-učení několikanásobně lepších výsledků než náhodný hráč. Výsledky a jejich analýza mohou být využity ke vhledu do problematiky zpětnovazebních algoritmů využívajících neuronové sítě a zdokonalení použitých postupů. Úplný záznam
	Navigace pomocí hlubokých konvolučních sítí Skácel, Dalibor ; Veľas, Martin (oponent) ; Hradiš, Michal (vedoucí práce) V této práci se věnuji problematice navigace a autonomního řízení za použití konvolučních neuronových sítí. Představuji zde hlavní přístupy využívající zpracování senzorických vstupů uváděné v odborné literatuře a popisuji teorii neuronových sítí, imitačního a zpětnovazebního učení. Dále rozebírám nástroje a metody vhodné pro zpracování systému řízení. V rámci práce jsem vytvořil dva typy modelů pro řízení vozidel v simulačním prostředí. Modely využívají učících algoritmů Dataset Aggregation a Deep Deterministic Policy Gradient. Vytvořené modely jsem otestoval v prostředí simulátoru TORCS a porovnal s dostupnými zdroji. Úplný záznam
	Extending Hotelling's location model into Agent-based domain Vainer, Jan ; Kukačka, Jiří (vedoucí práce) ; Smutná, Šarlota (oponent) Tato práce zkoumá chování adaptivních agentů v Hotellingově modelu prostorové diferenciace. Simulujeme chování dvou agentů v kontextu modelu prostorové dife- renciace, kteří pro adaptaci využívají Nash-Q algoritmus. Tradiční modely z teorie her jsou mnohdy zatíženy silnými předpoklady, jako je racionalita a perfektní in- formovanost agentů. Zkoumáme, jaké změny či zdokonalení výsledků technika Nash-Q učení přináší v porovnání s původním analytickým řešením Hotellingova modelu prostorové diferenciace. Zjišťujeme, že za použití Nash-Q učícího algoritmu a kvadratických nákladů spotřebitele se agenti, kteří si dostatečně váží budoucích zisků, naučí chování, které je podobné agresivní tržní strategii, kdy obě firmy začnou vytvářet podobné produkty a soutěží pouze v ceně za účelem odstranění soupeře z trhu. Toto chování připomíná Princip minimální diferenciace z Hotellingova originálního modelu s lineárními náklady spotřebitele. Náš výsledek je překvapivý, protože jsme v naší simulaci použili kvadratické náklady spotřebitele, což by naopak mělo vést k maximální diferenciaci produktů. Naše výsledky naznačují, že Princip minimální diferenciace by mohl být zdůvodněn na základě opakované interakce mezi agenty a optimalizace v dlouhodobém horizontu. Dále vyhodnocujeme vhodnost metod zpětnovazebného učení v... Úplný záznam
	Zpětnovazební učení pro řešení herních algoritmů Daňhelová, Jana ; Uher, Václav (oponent) ; Kolařík, Martin (vedoucí práce) Bakalářská práce Zpětnovazební učení pro řešení herních algoritmů je rozdělena do dvou částí. V teoretické části jsou popsány a srovnávány základní metody zpětnovazebního učení, přičemž zvláštní pozornost je věnována metodám aktivního učení – Q-učení a hlubokému učení. Praktická část je zaměřena na aplikaci metody deep learning na hru Had. Výsledky jsou prezentovány ve formě programu napsaného v programovacím jazyku Python, který se skládá z herního prostředí vytvořeného v PyGame, modelu konvoluční neuronové sítě zkonstruovaného v knihovně Keras a herního agenta. Výstupem programu je několik typů datasetů ve formátu csv. Získaná data, obsahující hodnoty jednotlivých parametrů jako počet epoch, přesnost, ztráta nebo výše odměny, mohou být následně použita jako podklady pro další zpracování. Úplný záznam
	Using reinforcement learning to learn how to play text-based games Zelinka, Mikuláš ; Kadlec, Rudolf (vedoucí práce) ; Lisý, Viliam (oponent) Schopnost naučit se optimálnímu chování v prostředích, kde jsou stavy i akce vyjádřeny v přirozeném jazyce, by se dala aplikovat na řadu skutečných problémů, jako je optimalizace dialogových systémů. Pro tento učící problém jsou vhodnou doménou textové hry s větším počtem možných konců se zpětnou vazbou v podobně číselných ohodnocení. S její pomocí můžeme v tomto kontextu využít technik zpětnovazebního učení pro současné učení vhodné reprezentace textových dat a rozhodovacích pravidel. Představujeme model obecného agenta schopného hrát textové hry a zkoumáme jeho schopnost generalizace a přenosu získaných znalostí na nová prostředí. Rovněž demonstrujeme, že se agent dokáže naučit hrát více textových her najednou. Dále prezentujeme otevřenou knihovnu pyfiction, která sjednocuje přístup k různým textovým hrám a doufáme, že společně s agentem, který je její součástí, by v budoucnu mohla sloužit jako referenční rámec pro podobné úlohy. Úplný záznam
	Adaptive Agent in a FPS Game Witzany, Tomáš ; Kadlec, Rudolf (vedoucí práce) ; Hric, Jan (oponent) V této práci je navržen a implementován adaptivní protihráč v počítačové hře Unreal Tournament v jejím módu Deathmatch. Agent byl navržen pomocí zpětnovazebního učení a implementován na platformě Pogamut. Pro stavovou abstrakci byl použit clusterovací algoritmus k-means. Dále byl na platformě Pogamut vyvinut framework pro testování výkonu agentů. Tento framework byl použit pro provedení množství experimentů testující různé strategie pro výběr akcí a také byly otestovány různé parametry Q-Learning algoritmu. Výsledné chování má výkon srovnatelný s implementacemi zpětnovazebního učení popsanými v dostupné literatuře. Úplný záznam

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.

Digitální repozitář :: :: :: ::
Powered by v1.1.2
Spravuje

Tato stránka je dostupná také v následujících jazycích:
Česky English