Název:
Textová klasifikace s limitovanými trénovacími daty
Překlad názvu:
Text classification with limited training data
Autoři:
Laitoch, Petr ; Hana, Jiří (vedoucí práce) ; Vidová Hladká, Barbora (oponent) Typ dokumentu: Diplomové práce
Rok:
2021
Jazyk:
eng
Abstrakt: [eng][cze] The aim of this thesis is to minimize manual work needed to create training data for text classification tasks. Various research areas including weak supervision, interactive learning and transfer learning explore how to minimize training data creation effort. We combine ideas from available literature in order to design a comprehensive text classification framework that employs keyword-based labeling instead of traditional text annotation. Keyword-based labeling aims to label texts based on keywords contained in the texts that are highly correlated with individual classification labels. As noted repeatedly in previous work, coming up with many new keywords is challenging for humans. To accommodate for this issue, we propose an interactive keyword labeler featuring the use of word similarity for guiding a user in keyword labeling. To verify the effectiveness of our novel approach, we implement a minimum viable prototype of the designed framework and use it to perform a user study on a restaurant review multi-label classification problem.Cı́lem této diplomové práce je minimalizovat manuálnı́činnost nutnou k vytvářenı́ trénovacı́ch dat pro klasifikaci textu. Různé oblasti výzkumu, včetně slabého dohledu, interaktivnı́ho učenı́ a transfer learningu, zkoumajı́, jak toto úsilı́ mini- malizovat. Propojenı́m vı́ce takových myšlenek z dostupné literatury jsme dospěli k návrhu interaktivnı́ho klasifikačnı́ho nástroje na bázi klı́čových slov. Nástroj se opı́rá o metodu klasifikace pomocı́ klı́čových slov namı́sto zdlouhavého an- otovánı́trénovacı́ch textů. Metoda klasifikace pomocı́klı́čových slov hledá klı́čová slova, jejichž výskyt v textu pomáhá určit klasifikačnı́ třı́du. Hledánı́ těchto klı́čových slov je pro člověka náročný proces. Proto předkládáme nový interak- tivnı́klı́čovoslovnı́identifikátor, který má za cı́l tento proces značně ulehčit. Mimo jiné je v něm použit model podobnosti slov pro samovolné doporučovánı́ nových klı́čových slov uživateli. Vytvořili jsme prototyp navrženého interaktivnı́ho identi- fikátoru a použili jsme ho k provedenı́ uživatelské studie na problému vı́cetřı́dové klasifikace recenzı́ restauracı́, abychom potvrdili schůdnost tohoto přı́stupu.
Klíčová slova:
NLP|klasifikace textu|weakly supervised learning; NLP|text classification|weakly supervised learning