Název:
Detekce kontradikce mezi dvěma texty v kazaštině
Překlad názvu:
Detection of contradictions in pairs of texts in Kazakh
Autoři:
Yamalutdinova, Yuliya ; Rosa, Rudolf (vedoucí práce) ; Dušek, Ondřej (oponent) Typ dokumentu: Bakalářské práce
Rok:
2019
Jazyk:
eng
Abstrakt: [eng][cze] Nowadays we have access to massive amount of information on the internet. But at the same time, we are faced with the problem of untrue information. The solution for this problem would be a tool, which could detect contradictions in texts. The goal of this work is to find in the given texts in Kazakh the statements with similar content and classify them as contradictory or similar. In most of the previous works the authors tried to align the sentences to find the most similar ones and used the information about semantics and morphology to classify them as contradictory or not. In our research we have tried to find semantically similar sentences using word2vec, fastText and BERT embeddings, and trained several models to classify them as contradictory or not, using the information about morphology, checking sentences for antonyms and building the neural network classifiers trained on the huge datasets. Our best model has achieved F2 better that random. 1V současné době my máme přístup k obrovskému množství informací na in- ternetu. Zároveň jsme však konfrontováni s problémem nepravdivé informaci. Řešením tohoto problému by mohl byt nástroj, který by mohl odhalit rozpory v textech. Cílem náše práce je nalézt v daných textech v kazaštině věty s podob- nym obsahem a klasifikovat je jako rozporné nebo podobné. Ve větsině podob- nych praci autori se snažili zarovnat věty, aby nalezli podobné a pro klasifikaci vět pouzivali informace o semantice a morfologii. V nášem vyzkumu jsme se snažili najít podobné věty pomoci word2vec, fastText a BERT vektorů a natré- novali několik modelů pro jejich klasifikaci jako rozporné nebo podobné pomocí informací o morfologii, kontroly vět pro antonymy a budování clasifikatoru po- moci neuronovych sítí trenoványch na velkych souborech dat. Náš nejlepší model dosáhl lepšího F2 než náhoda. 1
Klíčová slova:
kontradikce zpracování přirozeného jazyka kazaština; contradiction natural language processing Kazakh