Original title:
Zodpovídání dotazů o obrázcích
Translated title:
Visual Question Answering
Authors:
Hajič, Jakub ; Straka, Milan (advisor) ; Lokoč, Jakub (referee) Document type: Master’s theses
Year:
2017
Language:
eng Abstract:
[eng][cze] Visual Question Answering (VQA) is a recently proposed multimodal task in the general area of machine learning. The input to this task consists of a single image and an associated natural language question, and the output is the answer to that question. In this thesis we propose two incremental modifications to an existing model which won the VQA Challenge in 2016 using multimodal compact bilinear pooling (MCB), a novel way of combining modalities. First, we added the language attention mechanism, and on top of that we introduce an image attention mechanism focusing on objects detected in the image ("region attention"). We also experiment with ways of combining these in a single end- to-end model. The thesis describes the MCB model and our extensions and their two different implementations, and evaluates them on the original VQA challenge dataset for direct comparison with the original work. 1Visual Question Answering (zodpovídání dotazů nad obrázky, VQA) je nová multimodální úloha v oblasti strojového učení. Vstupem této úlohy je obrázek a otázka vztahující se k tomuto obrázku a výstupem je odpověď na tuto otázku. V této diplomové práci navrhujeme dvě modifikace stávajícího modelu, který zví- tězil v soutěži VQA 2016 pomocí tzv. multimodálního kompaktního bilineární pooling ("Multimodal compact bilinear pooling"), což je nový způsob kombinace modalit. První modifikací bylo přidání mechanizmu "language attention", který jsme dále rozšířili zavedením "region attention" mechanizmu se zaměřením na objekty rozpoznané na obrázku. Rovněž provádíme experiment s různými kombi- nacemi těchto modifikací v rámci jednoho end-to-end modelu. Tato práce popisuje MCB model a naše rozšíření a jejich dvě různé implementace a vyhodnocuje je standardními postupy na původních evaluačních datech soutěže VQA pro přímé porovnání s předchozími výsledky. 1
Keywords:
deep learning; image processing; multimodality; natural language processing; question answering; visual question answering; hluboké učení; multimodalita; zodpovídání dotazů; zodpovídání dotazů o obrázcích; zpracování obrazu; zpracování přirozeného jazyka
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/90573