keywords:"Zpětnovazební učení" - Výsledky hledání - Digitální repozitář

host :: přihlásit Digitální repozitář
		Hledej		Nový záznam		Nápověda		O repozitáři

Hlavní stránka > Výsledky hledání: keywords:"Zpětnovazební učení"

Hledej:

Tipy pro vyhledávaní :: Rozšířené hledání

Hledej ve sbírkách:

Seřadit podle:	Zobrazit výsledky:	Výstupní formát:

	Optimalizace řízení s pomocí zpětnovazebního učení na platformě Robocode Pastušek, Václav ; Myška, Vojtěch (oponent) ; Burget, Radim (vedoucí práce) Tato diplomová práce se zabývá optimalizací řízení tankového robota v prostředí Robocode za využití zpětnovazebního učení. Komplexita tohoto problému spadá do třídy EXPSPACE, což představuje výzvu, kterou nelze podcenit. Teoretická část práce pečlivě zkoumá platformu Robocode, koncepty zpětnovazebního učení a příslušné algoritmy, zatímco praktická část se zaměřuje na optimalizaci agenta, implementaci zpětnovazebních algoritmů a vytvoření uživatelsky přívětivého rozhraní pro snadné trénování a testování modelů. V rámci práce bylo natrénováno a otestováno celkem 64 modelů, jejichž data a parametry jsou vzájemně srovnávány a prezentovány v přiložených databázích a grafech. Nejlepší výsledky v průměrném počtu zásahů na epizodu dosáhly modely s označením v0.8.0 a v1.0.0. U prvního z nich se projevila určitá schopnost vyhýbání se střelám, zatímco u druhého byly pozorovány úspěšnější zásahy. Úplný záznam
	Hraní her pomocí neuronových sítí Buchal, Petr ; Kolář, Martin (oponent) ; Hradiš, Michal (vedoucí práce) Cílem této práce je naučit neuronovou síť pohybu v prostředích s klasickou kontrolou řízení, hraní tahové hry 2048 a několika Atari her. Jedná se o oblast zpětnovazebního učení. Jako zpětnovazební algoritmus využívající neuronové sítě jsem použil Hluboké Q-učení. Ten jsem pro zvýšení efektivity učení obohatil o několik vylepšení. Mezi vylepšení patří přidání cílové sítě, DDQN, duální architektura neuronové sítě a prioritní vzpomínková paměť. Experimenty s klasickou kontrolou řízení zjistily, že nejvíce zvedá efektivitu učení přidání cílové sítě. V prostředích her dosáhlo Hluboké Q-učení několikanásobně lepších výsledků než náhodný hráč. Výsledky a jejich analýza mohou být využity ke vhledu do problematiky zpětnovazebních algoritmů využívajících neuronové sítě a zdokonalení použitých postupů. Úplný záznam
	Posilované učení pro 3D hry Beránek, Michal ; Herout, Adam (oponent) ; Hradiš, Michal (vedoucí práce) Práce se zabývá učením neuronové sítě na jednoduchých úlohách v prostředí 3D střílečky Doom, zprostředkovaném výzkumnou platformou ViZDoom. Hlavním cílem je vytvoření agenta, který se učí na několika úlohách zároveň. Použitým algoritmem posilovaného učení je Rainbow, který kombinuje několik vylepšení algoritmu DQN. Pro učení na více úlohách jsem navrhnul a otestoval dvě různé architektury sítě. Jedna z nich byla úspěšná a po relativně krátké době trénování dokázal agent získat téměř 50 % z maximální možné odměny. Klíčovým prvkem úspěchu je Embedding vrstva pro parametrický popis prostředí jednotlivých úloh. Hlavním zjištěním je, že Rainbow je schopen učit se v 3D prostředí a s pomocí Embedding vrstvy i na více úlohách zároveň. Úplný záznam
	Navigace pomocí hlubokých konvolučních sítí Skácel, Dalibor ; Veľas, Martin (oponent) ; Hradiš, Michal (vedoucí práce) V této práci se věnuji problematice navigace a autonomního řízení za použití konvolučních neuronových sítí. Představuji zde hlavní přístupy využívající zpracování senzorických vstupů uváděné v odborné literatuře a popisuji teorii neuronových sítí, imitačního a zpětnovazebního učení. Dále rozebírám nástroje a metody vhodné pro zpracování systému řízení. V rámci práce jsem vytvořil dva typy modelů pro řízení vozidel v simulačním prostředí. Modely využívají učících algoritmů Dataset Aggregation a Deep Deterministic Policy Gradient. Vytvořené modely jsem otestoval v prostředí simulátoru TORCS a porovnal s dostupnými zdroji. Úplný záznam
	Využití Robotického operačního systému (ROS) pro řízení kolaborativního robota UR3 Juříček, Martin ; Matoušek, Radomil (oponent) ; Parák, Roman (vedoucí práce) Cílem bakalářské práce je vytvoření řídícího programu, jeho následné otestování a ověření funkčnosti pro kolaborativního robota UR3 od firmy Universal Robots. Řídící program je napsán v jazyce python a integruje možnosti řízení skrz Robotický operační systém, kdy lze dosahovat definovaného bodu pomocí předem simulovaných trajektorií algoritmů Q-learning, SARSA, Deep Q-learning, Deep SARSA, a nebo za pomocí pouze frameworku MoveIT. V práci je pojednáno průřezem o tématech kolaborativní robotiky, Robotického operačního systému, simulačního prostředí Gazebo, zpětnovazebního a hluboké zpětnovazebního učení. Závěrem je popsán samotný návrh a implementace řídícího programu s dílčími částmi. Úplný záznam
	Zpětnovazební učení pro řešení herních algoritmů Daňhelová, Jana ; Uher, Václav (oponent) ; Kolařík, Martin (vedoucí práce) Bakalářská práce Zpětnovazební učení pro řešení herních algoritmů je rozdělena do dvou částí. V teoretické části jsou popsány a srovnávány základní metody zpětnovazebního učení, přičemž zvláštní pozornost je věnována metodám aktivního učení – Q-učení a hlubokému učení. Praktická část je zaměřena na aplikaci metody deep learning na hru Had. Výsledky jsou prezentovány ve formě programu napsaného v programovacím jazyku Python, který se skládá z herního prostředí vytvořeného v PyGame, modelu konvoluční neuronové sítě zkonstruovaného v knihovně Keras a herního agenta. Výstupem programu je několik typů datasetů ve formátu csv. Získaná data, obsahující hodnoty jednotlivých parametrů jako počet epoch, přesnost, ztráta nebo výše odměny, mohou být následně použita jako podklady pro další zpracování. Úplný záznam
	Navigace pomocí hlubokých konvolučních sítí Skácel, Dalibor ; Veľas, Martin (oponent) ; Hradiš, Michal (vedoucí práce) Tato práce se věnuje problematice navigace a autonomního řízení za použití konvolučních neuronových sítí. Jsou zde představeny hlavní přístupy využívající zpracování senzorických vstupů uváděné v odborné literatuře a popsána teorie neuronových sítí, imitačního a zpětnovazebního učení. Dále jsou zde popsány nástroje a metody vhodné pro zpracování systému řízení. Jsou vytvořeny dva typy modelů pro řízení vozidel v simulačním prostředí. Modely využívají učících algoritmů DAGGER a DDPG. Vytvořené modely jsou otestovány v prostředí simulátoru TORCS. Úplný záznam
	Robocode - zabezpečená platforma pro hodnocení studentských projektů Peňáz, Vladimír ; Ježek, Štěpán (oponent) ; Burget, Radim (vedoucí práce) Tato bakalářská práce se zaměřuje na návrh a implementaci bezpečné testovací platformy založené na hře Robocode, která slouží k hodnocení studentských projektů v rámci předmětu MSC-PDA. Projekt využívá principy strojového učení a řeší problém třídy složitosti EXPSPACE. Hodnocení kvality výsledků v této třídě složitosti je obtížné a aktuálně neexistuje vhodné prostředí pro tyto účely. Cílem práce je vytvořit bezpečné prostředí, které umožní studentům soutěžit na herním serveru s minimálním rizikem poškození učitelské výpočetní stanice a zajištěním práv superuživatele. Studenti budou své natrénované modely připojovat k hernímu serveru, odkud získají kompletní informace o dění na bitevním poli a podle nich vygenerují instrukce pro svůj tank. Tímto způsobem bude model disponovat stejnými informacemi o bitvě jako člověk hrající manuálně. Na základě konečného skóre bude možné vyhodnotit, který model dosáhl nejlepšího výsledku a označit ho jako nejlepší. Platforma je implementována v jazyce Java a pracuje s modely implementovanými v jazyce Python. Úplný záznam
	Using reinforcement learning to learn how to play text-based games Zelinka, Mikuláš ; Kadlec, Rudolf (vedoucí práce) Schopnost naučit se optimálnímu chování v prostředích, kde jsou stavy i akce vyjádřeny v přirozeném jazyce, by se dala aplikovat na řadu skutečných problémů, jako je optimalizace dialogových systémů. Pro tento učící problém jsou vhodnou doménou textové hry s větším počtem možných konců se zpětnou vazbou v podobně číselných ohodnocení. S její pomocí můžeme v tomto kontextu využít technik zpětnovazebního učení pro současné učení vhodné reprezentace textových dat a rozhodovacích pravidel. Představujeme model obecného agenta schopného hrát textové hry a zkoumáme jeho schopnost generalizace a přenosu získaných znalostí na nová prostředí. Rovněž demonstrujeme, že se agent dokáže naučit hrát více textových her najednou. Dále prezentujeme otevřenou knihovnu pyfiction, která sjednocuje přístup k různým textovým hrám a doufáme, že společně s agentem, který je její součástí, by v budoucnu mohla sloužit jako referenční rámec pro podobné úlohy. Úplný záznam
	Stock Trading Using a Deep Reinforcement Learning and Text Analysis Benk, Dominik ; Baruník, Jozef (vedoucí práce) ; Vácha, Lukáš (oponent) Práce se zaměřuje na využití nedokonalostí akciového trhu pomocí nejmod- ernějších metod učení a jejich aplikaci na algoritmické obchodování. Očekává se, že automatizovaná rozhodnutí budou schopna překonat profesionální ob- chodníky tím, že zohlední mnohem více informací, budou reagovat téměř okamžitě a nebudou ovlivněna emocemi. Jako alternativa k tradičnímu učení s takz- vaným učitelem, využívá navrhovaný model zpětnovazebního učení principu pokus-omyl, který je nezbytný pro učení chování všech organismů. V kontextu akcií to umožňuje zohlednit zahrnutou nejistotu, a tedy přesněji odhadnout dlouhodobé výnosy. Pro shromáždění co nejrelevantnějších informací k jed- notlivým obchodním rozhodnutím, staví modely kromě technických ukazatelů také na názoru investorů - finančním sentimentu. Ten je získáván ze dvou textových zdrojů, zpráv a sociálních médií, a hlavním cílem je porovnat jejich relativní přínos pro obchodování. Modely jsou aplikovány na 11 různých akcií a později spojeny do portfolia pro větší robustnost výsledků. Textová analýza se potvrdila jako důležitá při procesu učení, zejména v případě akcií s dobrým mediálním pokrytím. Ukazuje se, že Twitter poskytuje cennější informace ve srovnání se zprávami, ale jejich kombinace vykazuje ještě vyšší predikční po- tenciál. Nicméně i tak, navržené... Úplný záznam

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.

Digitální repozitář :: :: :: ::
Powered by v1.1.2
Spravuje

Tato stránka je dostupná také v následujících jazycích:
Česky English