Národní úložiště šedé literatury Nalezeno 1 záznamů.  Hledání trvalo 0.01 vteřin. 
Visual Question Answering
Hajič, Jakub ; Straka, Milan (vedoucí práce) ; Lokoč, Jakub (oponent)
Visual Question Answering (zodpovídání dotazů nad obrázky, VQA) je nová multimodální úloha v oblasti strojového učení. Vstupem této úlohy je obrázek a otázka vztahující se k tomuto obrázku a výstupem je odpověď na tuto otázku. V této diplomové práci navrhujeme dvě modifikace stávajícího modelu, který zví- tězil v soutěži VQA 2016 pomocí tzv. multimodálního kompaktního bilineární pooling ("Multimodal compact bilinear pooling"), což je nový způsob kombinace modalit. První modifikací bylo přidání mechanizmu "language attention", který jsme dále rozšířili zavedením "region attention" mechanizmu se zaměřením na objekty rozpoznané na obrázku. Rovněž provádíme experiment s různými kombi- nacemi těchto modifikací v rámci jednoho end-to-end modelu. Tato práce popisuje MCB model a naše rozšíření a jejich dvě různé implementace a vyhodnocuje je standardními postupy na původních evaluačních datech soutěže VQA pro přímé porovnání s předchozími výsledky. 1

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.