Original title:
Detekce kontradikce mezi dvěma texty v kazaštině
Translated title:
Detection of contradictions in pairs of texts in Kazakh
Authors:
Yamalutdinova, Yuliya ; Rosa, Rudolf (advisor) ; Dušek, Ondřej (referee) Document type: Bachelor's theses
Year:
2019
Language:
eng Abstract:
[eng][cze] Nowadays we have access to massive amount of information on the internet. But at the same time, we are faced with the problem of untrue information. The solution for this problem would be a tool, which could detect contradictions in texts. The goal of this work is to find in the given texts in Kazakh the statements with similar content and classify them as contradictory or similar. In most of the previous works the authors tried to align the sentences to find the most similar ones and used the information about semantics and morphology to classify them as contradictory or not. In our research we have tried to find semantically similar sentences using word2vec, fastText and BERT embeddings, and trained several models to classify them as contradictory or not, using the information about morphology, checking sentences for antonyms and building the neural network classifiers trained on the huge datasets. Our best model has achieved F2 better that random. 1V současné době my máme přístup k obrovskému množství informací na in- ternetu. Zároveň jsme však konfrontováni s problémem nepravdivé informaci. Řešením tohoto problému by mohl byt nástroj, který by mohl odhalit rozpory v textech. Cílem náše práce je nalézt v daných textech v kazaštině věty s podob- nym obsahem a klasifikovat je jako rozporné nebo podobné. Ve větsině podob- nych praci autori se snažili zarovnat věty, aby nalezli podobné a pro klasifikaci vět pouzivali informace o semantice a morfologii. V nášem vyzkumu jsme se snažili najít podobné věty pomoci word2vec, fastText a BERT vektorů a natré- novali několik modelů pro jejich klasifikaci jako rozporné nebo podobné pomocí informací o morfologii, kontroly vět pro antonymy a budování clasifikatoru po- moci neuronovych sítí trenoványch na velkych souborech dat. Náš nejlepší model dosáhl lepšího F2 než náhoda. 1
Keywords:
contradiction natural language processing Kazakh; kontradikce zpracování přirozeného jazyka kazaština
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/109076