Original title:
Klasifikace textu s omezeným množstvím dat
Translated title:
Low-resource Text Classification
Authors:
Szabó, Adam ; Straka, Milan (advisor) ; Popel, Martin (referee) Document type: Master’s theses
Year:
2021
Language:
eng Abstract:
[eng][cze] The aim of the thesis is to evaluate Czech text classification tasks in the low-resource settings. We introduce three datasets, two of which were publicly available and one was created partly by us. This dataset is based on contracts provided by the web platform Hlídač Státu. It has most of the data annotated automatically and only a small part manually. Its distinctive feature is that it contains long contracts in the Czech language. We achieve outstanding results with the proposed model on publicly available datasets, which confirms the sufficient performance of our model. In addition, we performed ex- perimental measurements of noisy data and of various amounts of data needed to train the model on these publicly available datasets. On the contracts dataset, we focused on selecting the right part of each contract and we studied with which part we can get the best result. We have found that for a dataset that contains some systematic errors due to automatic annotation, it is more advantageous to use a shorter but more relevant part of the contract for classification than to take a longer text from the contract and rely on BERT to learn correctly. 1Cílem práce je vyhodnotit klasifikaci českého textu s malým množstvím trénovacích dat. Používáme tři datasety, z nichž dva jsou veřejně dostupné a jeden je vytvořen částečně námi. Základ tohoto datasetu tvoří smlouvy, které nám poskytla webová plat- forma Hlídač Státu. Většina dat je klasifikovaná automaticky a jen malá část ručně. Jeho charakteristickým znakem je, že obsahuje dlouhé smlouvy v českém jazyce. S navrženým modelem dosahujeme na veřejně dostupných datasetech velmi dobrých výsledků, což potvrzuje dostatečný výkon našeho modelu. Navíc jsme na těchto veřejně dostupných datasetech provedli experimentální měření zašuměných dat a různého množství dat potřeb- ných k natrénování modelu. Na datasetu smluv jsme se zaměřili na výběr správné části z jednotlivých smluv a zkoumali jsme, pomocí které části můžeme dosáhnout nejlepší výsledků. Zjistili jsme, že u datasetu, který z důvodu automatického anotování obsahuje jistou část systematických chyb, je pro klasifikaci výhodnější použít kratší, ale relevant- nější část smlouvy, než vzít ze smlouvy delší text a spoléhat se, že BERT se z toho naučí správně. 1
Keywords:
text classification|low-resource|BERT; klasifikace textu|omezené množství dat|BERT
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/147675