Národní úložiště šedé literatury Nalezeno 21 záznamů.  1 - 10dalšíkonec  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Optimalizace řízení s pomocí zpětnovazebního učení na platformě Robocode
Pastušek, Václav ; Myška, Vojtěch (oponent) ; Burget, Radim (vedoucí práce)
Tato diplomová práce se zabývá optimalizací řízení tankového robota v prostředí Robocode za využití zpětnovazebního učení. Komplexita tohoto problému spadá do třídy EXPSPACE, což představuje výzvu, kterou nelze podcenit. Teoretická část práce pečlivě zkoumá platformu Robocode, koncepty zpětnovazebního učení a příslušné algoritmy, zatímco praktická část se zaměřuje na optimalizaci agenta, implementaci zpětnovazebních algoritmů a vytvoření uživatelsky přívětivého rozhraní pro snadné trénování a testování modelů. V rámci práce bylo natrénováno a otestováno celkem 64 modelů, jejichž data a parametry jsou vzájemně srovnávány a prezentovány v přiložených databázích a grafech. Nejlepší výsledky v průměrném počtu zásahů na epizodu dosáhly modely s označením v0.8.0 a v1.0.0. U prvního z nich se projevila určitá schopnost vyhýbání se střelám, zatímco u druhého byly pozorovány úspěšnější zásahy.
Hraní her pomocí neuronových sítí
Buchal, Petr ; Kolář, Martin (oponent) ; Hradiš, Michal (vedoucí práce)
Cílem této práce je naučit neuronovou síť pohybu v prostředích s klasickou kontrolou řízení, hraní tahové hry 2048 a několika Atari her. Jedná se o oblast zpětnovazebního učení. Jako zpětnovazební algoritmus využívající neuronové sítě jsem použil Hluboké Q-učení. Ten jsem pro zvýšení efektivity učení obohatil o několik vylepšení. Mezi vylepšení patří přidání cílové sítě, DDQN, duální architektura neuronové sítě a prioritní vzpomínková paměť. Experimenty s klasickou kontrolou řízení zjistily, že nejvíce zvedá efektivitu učení přidání cílové sítě. V prostředích her dosáhlo Hluboké Q-učení několikanásobně lepších výsledků než náhodný hráč. Výsledky a jejich analýza mohou být využity ke vhledu do problematiky zpětnovazebních algoritmů využívajících neuronové sítě a zdokonalení použitých postupů.
Posilované učení pro 3D hry
Beránek, Michal ; Herout, Adam (oponent) ; Hradiš, Michal (vedoucí práce)
Práce se zabývá učením neuronové sítě na jednoduchých úlohách v prostředí 3D střílečky Doom, zprostředkovaném výzkumnou platformou ViZDoom. Hlavním cílem je vytvoření agenta, který se učí na několika úlohách zároveň. Použitým algoritmem posilovaného učení je Rainbow, který kombinuje několik vylepšení algoritmu DQN. Pro učení na více úlohách jsem navrhnul a otestoval dvě různé architektury sítě. Jedna z nich byla úspěšná a po relativně krátké době trénování dokázal agent získat téměř 50 % z maximální možné odměny. Klíčovým prvkem úspěchu je Embedding vrstva pro parametrický popis prostředí jednotlivých úloh. Hlavním zjištěním je, že Rainbow je schopen učit se v 3D prostředí a s pomocí Embedding vrstvy i na více úlohách zároveň.
Navigace pomocí hlubokých konvolučních sítí
Skácel, Dalibor ; Veľas, Martin (oponent) ; Hradiš, Michal (vedoucí práce)
V této práci se věnuji problematice navigace a autonomního řízení za použití konvolučních neuronových sítí. Představuji zde hlavní přístupy využívající zpracování senzorických vstupů uváděné v odborné literatuře a popisuji teorii neuronových sítí, imitačního a zpětnovazebního učení. Dále rozebírám nástroje a metody vhodné pro zpracování systému řízení. V rámci práce jsem vytvořil dva typy modelů pro řízení vozidel v simulačním prostředí. Modely využívají učících algoritmů Dataset Aggregation a Deep Deterministic Policy Gradient. Vytvořené modely jsem otestoval v prostředí simulátoru TORCS a porovnal s dostupnými zdroji.
Využití Robotického operačního systému (ROS) pro řízení kolaborativního robota UR3
Juříček, Martin ; Matoušek, Radomil (oponent) ; Parák, Roman (vedoucí práce)
Cílem bakalářské práce je vytvoření řídícího programu, jeho následné otestování a ověření funkčnosti pro kolaborativního robota UR3 od firmy Universal Robots. Řídící program je napsán v jazyce python a integruje možnosti řízení skrz Robotický operační systém, kdy lze dosahovat definovaného bodu pomocí předem simulovaných trajektorií algoritmů Q-learning, SARSA, Deep Q-learning, Deep SARSA, a nebo za pomocí pouze frameworku MoveIT. V práci je pojednáno průřezem o tématech kolaborativní robotiky, Robotického operačního systému, simulačního prostředí Gazebo, zpětnovazebního a hluboké zpětnovazebního učení. Závěrem je popsán samotný návrh a implementace řídícího programu s dílčími částmi.
Zpětnovazební učení pro řešení herních algoritmů
Daňhelová, Jana ; Uher, Václav (oponent) ; Kolařík, Martin (vedoucí práce)
Bakalářská práce Zpětnovazební učení pro řešení herních algoritmů je rozdělena do dvou částí. V teoretické části jsou popsány a srovnávány základní metody zpětnovazebního učení, přičemž zvláštní pozornost je věnována metodám aktivního učení – Q-učení a hlubokému učení. Praktická část je zaměřena na aplikaci metody deep learning na hru Had. Výsledky jsou prezentovány ve formě programu napsaného v programovacím jazyku Python, který se skládá z herního prostředí vytvořeného v PyGame, modelu konvoluční neuronové sítě zkonstruovaného v knihovně Keras a herního agenta. Výstupem programu je několik typů datasetů ve formátu csv. Získaná data, obsahující hodnoty jednotlivých parametrů jako počet epoch, přesnost, ztráta nebo výše odměny, mohou být následně použita jako podklady pro další zpracování.
Navigace pomocí hlubokých konvolučních sítí
Skácel, Dalibor ; Veľas, Martin (oponent) ; Hradiš, Michal (vedoucí práce)
Tato práce se věnuje problematice navigace a autonomního řízení za použití konvolučních neuronových sítí. Jsou zde představeny hlavní přístupy využívající zpracování senzorických vstupů uváděné v odborné literatuře a popsána teorie neuronových sítí, imitačního a zpětnovazebního učení. Dále jsou zde popsány nástroje a metody vhodné pro zpracování systému řízení. Jsou vytvořeny dva typy modelů pro řízení vozidel v simulačním prostředí. Modely využívají učících algoritmů DAGGER a DDPG. Vytvořené modely jsou otestovány v prostředí simulátoru TORCS.
Robocode - zabezpečená platforma pro hodnocení studentských projektů
Peňáz, Vladimír ; Ježek, Štěpán (oponent) ; Burget, Radim (vedoucí práce)
Tato bakalářská práce se zaměřuje na návrh a implementaci bezpečné testovací platformy založené na hře Robocode, která slouží k hodnocení studentských projektů v rámci předmětu MSC-PDA. Projekt využívá principy strojového učení a řeší problém třídy složitosti EXPSPACE. Hodnocení kvality výsledků v této třídě složitosti je obtížné a aktuálně neexistuje vhodné prostředí pro tyto účely. Cílem práce je vytvořit bezpečné prostředí, které umožní studentům soutěžit na herním serveru s minimálním rizikem poškození učitelské výpočetní stanice a zajištěním práv superuživatele. Studenti budou své natrénované modely připojovat k hernímu serveru, odkud získají kompletní informace o dění na bitevním poli a podle nich vygenerují instrukce pro svůj tank. Tímto způsobem bude model disponovat stejnými informacemi o bitvě jako člověk hrající manuálně. Na základě konečného skóre bude možné vyhodnotit, který model dosáhl nejlepšího výsledku a označit ho jako nejlepší. Platforma je implementována v jazyce Java a pracuje s modely implementovanými v jazyce Python.
Using reinforcement learning to learn how to play text-based games
Zelinka, Mikuláš ; Kadlec, Rudolf (vedoucí práce)
Schopnost naučit se optimálnímu chování v prostředích, kde jsou stavy i akce vyjádřeny v přirozeném jazyce, by se dala aplikovat na řadu skutečných problémů, jako je optimalizace dialogových systémů. Pro tento učící problém jsou vhodnou doménou textové hry s větším počtem možných konců se zpětnou vazbou v podobně číselných ohodnocení. S její pomocí můžeme v tomto kontextu využít technik zpětnovazebního učení pro současné učení vhodné reprezentace textových dat a rozhodovacích pravidel. Představujeme model obecného agenta schopného hrát textové hry a zkoumáme jeho schopnost generalizace a přenosu získaných znalostí na nová prostředí. Rovněž demonstrujeme, že se agent dokáže naučit hrát více textových her najednou. Dále prezentujeme otevřenou knihovnu pyfiction, která sjednocuje přístup k různým textovým hrám a doufáme, že společně s agentem, který je její součástí, by v budoucnu mohla sloužit jako referenční rámec pro podobné úlohy.
Stock Trading Using a Deep Reinforcement Learning and Text Analysis
Benk, Dominik ; Baruník, Jozef (vedoucí práce) ; Vácha, Lukáš (oponent)
Práce se zaměřuje na využití nedokonalostí akciového trhu pomocí nejmod- ernějších metod učení a jejich aplikaci na algoritmické obchodování. Očekává se, že automatizovaná rozhodnutí budou schopna překonat profesionální ob- chodníky tím, že zohlední mnohem více informací, budou reagovat téměř okamžitě a nebudou ovlivněna emocemi. Jako alternativa k tradičnímu učení s takz- vaným učitelem, využívá navrhovaný model zpětnovazebního učení principu pokus-omyl, který je nezbytný pro učení chování všech organismů. V kontextu akcií to umožňuje zohlednit zahrnutou nejistotu, a tedy přesněji odhadnout dlouhodobé výnosy. Pro shromáždění co nejrelevantnějších informací k jed- notlivým obchodním rozhodnutím, staví modely kromě technických ukazatelů také na názoru investorů - finančním sentimentu. Ten je získáván ze dvou textových zdrojů, zpráv a sociálních médií, a hlavním cílem je porovnat jejich relativní přínos pro obchodování. Modely jsou aplikovány na 11 různých akcií a později spojeny do portfolia pro větší robustnost výsledků. Textová analýza se potvrdila jako důležitá při procesu učení, zejména v případě akcií s dobrým mediálním pokrytím. Ukazuje se, že Twitter poskytuje cennější informace ve srovnání se zprávami, ale jejich kombinace vykazuje ještě vyšší predikční po- tenciál. Nicméně i tak, navržené...

Národní úložiště šedé literatury : Nalezeno 21 záznamů.   1 - 10dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.