Original title:
Úloha odpovídání na otázky v češtině pomocí strojového překladu a mezijazykového přenosu znalostí
Translated title:
Question Answering in Czech via Machine Translation and Cross-lingual Transfer
Authors:
Macková, Kateřina ; Straka, Milan (advisor) ; Mareček, David (referee) Document type: Rigorous theses
Year:
2022
Language:
eng Abstract:
[eng][cze] Reading comprehension and question answering are computer science disciplines in the field of natural language processing and information retrieval. Reading comprehension is the ability of the model to read text, process it and understand its meaning. One of its applications is in question answering tasks, which is concerned with building a system that can automatically find an answer in the text to a certain question relied on the content of the text. It is a well-studied task, with huge training datasets in English. However, there are no Czech datasets and models for this task. This work focuses on building reading comprehension and question answering systems for Czech, without requiring any manually annotated Czech training data. Our main focus is to create Czech training and development datasets, create the models for the Czech question answering system using Czech data, and create the models for the Czech question answering system using English data and cross-lingual transfer and compare the results and select the best model. First of all, we translated freely available English question answering datasets SQuAD 1.1 and SQuAD 2.0 to Czech to create training and development datasets. We then trained and evaluated several BERT and XLM-RoBERTa baseline models used for the question answering task in...Informatické zpracování dovednosti čtení s porozuměním a úlohy odpovídání na otázky se zabývají oblastmi zpracování přirozeného jazyka a vyhledávání informací. Čtení s porozuměním je schopnost modelu číst a zpracovat text a porozumět jeho významu. Jednou z jeho aplikací je úloha odpovídání na otázky, které se zabývá vytvořením systému, který dokáže v textu automaticky najít odpověď na určitou otázku, která přímo souvisí s obsahem dokumentu. Pro angličtinu se jedná se o hojně studovanou úlohu, pro kterou existují obrovská tréninková data a spousty modelů. Pro tuto oblast však neexistují žádné modely ani data v češtině. Tato práce se zaměřuje na vytvoření systémů pro úlohy čtení s porozuměním a odpovídání na otázky v českém jazyce, a to bez nutnosti ručně vytvářet česká data. Hlavním cílem je automatické vytvoření českých trénovacích a testovacích dat a vytvoření modelů pro úlohu odpovídání na otázky v češtině. Využívá se existujících anglických dat a modelů za pomoci překladu a mezijazykového přenosu znalostí a následného porovnání výsledků a výběru modelu s nejlepšími výsledky. Nejprve jsme přeložili volně dostupná anglická data pro úlohu odpovídání na otázky SQuAD 1.1 a SQuAD 2.0 do češtiny, aby- chom vytvořili trénovací a testovací data. Poté jsme přetrénovali a vyhodnotili několik základních modelů BERT...
Keywords:
Question answering|Reading Comprehension|Natural language processing|Crosslingual Transfer|SQuAD|Transformer|BERT|XLM-RoBERTa; Úloha odpovídání na otázky|Čtení s porozuměním|Zpracování přirozeného jazyka|Crosslingual Transfer|SQuAD|Transformer|BERT|XLM-RoBERTa
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/178197