Original title:
Automatická detekce fake-news na slovenských textech
Translated title:
Automatic detection of fake-news on Slovak texts
Authors:
Romanský, Patrik ; Mareček, David (advisor) ; Novák, Michal (referee) Document type: Master’s theses
Year:
2023
Language:
slo Abstract:
[eng][cze] Fake news is a problem in recent years. This study focuses on detecting fake news written in the Slovak language using text classification methods. It is unique because it is the first to conduct such a comprehensive set of experiments on Slovak. During the study, a balanced dataset was created, and over 80 experiments were conducted to find the optimal classifier for the problem. Pre-trained transformer-based language models, including BERT, mBERT, RoBERTA, XLM-RoBERTa, and SlovakBERT, were used in the initial step of the study, and their performance was compared against other machine learning methods using standard metrics. The models were fine-tuned with LIAR and COVID19 FN, English-language datasets, to test the impact of fake news topics and language transfer properties. SlovakBERT combined with training exclusively on Slovak datasets achieved the best results with an (acc = 0.9610). This study can contribute to the development of tools to automatically detect fake news in Slovak, aiding in the fight against the spread of false information. 1Šírenie fake-news je dlhodobým problémom, ale v posledných rokoch sa stáve ešte výraznejším. Preto sme sa v tejto práci pozreli na problém ich automatickej detekcie ako na úlohu klasifikácie textu. Práca sa od iných, jej podobných štúdií, odlišuje primárne v tom, že sa zameriava na slovenčinu, kde doposiaľ nebola vykonaná takáto rozsiahla sada experimentov. Počas testov sme vytvorili vybalansovaný dataset. Vykonali sme taktiež viac ako 80 experimentov s cieľom nájsť optimálny klasifikátor pre riešenie tohto pro- blému. Ako prvý sme použili predtrénované jazykové modely typu Transformer (BERT, mBERT, RoBERTA, XLM-RoBERTa a SlovakBERT) a pomocou štandardných metrík sme porovnali ich výkonnosť s inými metódami strojového učenia. Pre fine-tuning sme použili aj anglické datasety LIAR a COVID19 FN, na ktorých sme otestovali vplyv témy fake-news a prenos vlastnosti medzi jazykmi. Najlepšie výsledky dosiahol SlovakBERT v kombinácii s tréningom na výlučne slovenskom datasete (acc = 0.9610). 1
Keywords:
fake-news|hoax; fake-news|hoax
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/182444