Název:
Mezijazykový přenos znalostí v úloze odpovídání na otázky
Překlad názvu:
Crosslingual Transfer in Question Answering
Autoři:
Macková, Kateřina ; Straka, Milan (vedoucí práce) ; Rosa, Rudolf (oponent) Typ dokumentu: Diplomové práce
Rok:
2020
Jazyk:
cze
Abstrakt: [cze][eng] Question answering je disciplínou informatiky v oblasti zpracování přirozeného jazyka a získávání informací. Cílem je vytvořit systém, který automaticky najde odpověď na určitou otázku v textu. V dnešní době existuje spousta modelů trénovaných na obrovských tréninkových datových souborech v angličtině. Tato práce se zaměřuje na budování podobných modelů v češtině bez českých tréninkových datasetů. Při této práci jsme použili SQuAD 1.1 a přeložili jej do češtiny pro vytvoření trénovacích a testovacích datových souborů. Pak jsme trénovali a testovali modely BiDirectional Attention Flow a BERT. Nejlepší získaný výsledek na českém datasetu je z modelu BERT trénovaného na češtině s přesnou shodou 60,48% a skóre F1 73,46%. Kromě toho jsme také natrénovali model BERT na anglickém datasetu a vyhodnotili jsme ho na českém testovacím datasetu bez překladu. Dosáhli jsme přesné shody 63,71% a skóre F1 74,78%, což je mimořádně dobré navzdory tomu, že model dosud neviděl žádné české question answering data. Takový model je velmi univerzální a poskytuje systém odpovědí na otázky v jakémkoli jazyce, pro který máme dostatek monolingválních textů.Question answering is a computer science discipline in the field of natural language processing and information retrieval. The goal is to build a system that can automatically find an answer to a certain question in the text. Nowadays, there exist a lot of models trained on huge training data sets in English. This work focuses on building similar models in Czech without having any Czech training datasets. In this work, we have used SQuAD 1.1 and translated it to Czech to create training and development datasets. Then, we have trained and tested BiDirectional Attention Flow and BERT models. The best obtained result on the Czech dataset is from BERT model trained on Czech with exact match 60.48% and F1 score 73.46%. In addition, we have also trained BERT model on English dataset and we have evaluated it on Czech testing dataset without translation. We have reached exact match 63.71% and F1 score 74.78%, which is extremely good in spite of the fact that the model has not seen any Czech question answering data before. Such a model is very flexible and provide a question answering system in any language for which we have enough monolingual raw texts.
Klíčová slova:
odpovídání na otázky; SQuAD; transfer znalostí; crosslingual transfer; question answering; SQuAD