Original title:
Klasifikátor morfů
Translated title:
Morph classifier
Authors:
John, Vojtěch ; Žabokrtský, Zdeněk (advisor) ; Helcl, Jindřich (referee) Document type: Master’s theses
Year:
2024
Language:
eng Abstract:
[eng][cze] Morphological classification is the task of classifying morphs - the forms of morphemes - in laready segmented words. Since there are more and greateer resources for morpholog- ical segmentation than for morphological classification, methods presented in this thesis could be used for enriching already existing resources or creating new ones. We propose several methods of morph classification in increasing order of granularity. Firstly, we present several unsupervised, semi-supervised and supervised methods of root identifica- tion (on eight languages with manually annotated data in UniSegments), using simple statistical methods, derivational tree databases and CNN-LSTM-CRF sequence classifi- cation. We sample the learning curve of the neural taggers and train joint models for morphological segmentation and classificaton. Further, we present supervised feature- independent morph classification and joint classification and segmentation CNN-LSTM- CRF models, trained and tested on Czech, Slovak and Russian. Finally, we proposed two simple methods of aligning morphological features to morphs. We also used interlin- ear glossed text databases to assign morphological functions to inflectional morphs using CNN-LSTM-CRF sequence classifiers. 1Morfologická klasifikace je úloha spočívající v klasifikaci morfů (forem morfémů) v již segmentovaných slovech. Jelikož zdrojů pro morfologickou segmentaci je více (a větších) než pro morfologickou klasifikaci, metody představené v této práci mohou být použity pro obohacení již existujících zdrojů nebo pro vytvoření nových. Využíváme několik metod morfologické klasifikace, seřazených podle rostoucí jemnosti. Nejdříve představujeme me- tody identifikace kořenů, využívající jednoduché statistické heuristiky, derivační stromy a klasifikaci sekvencí pomocí CNN-LSTM-CRF neuronových sítí, používajíce ručně anoto- vaná data pro devět jazyků. Následně představujeme CNN-LSTM-CRF modely klasifikaci morfů a společnou klasifikaci a morfologickou segmentaci, natrénované na češtině, sloven- štině a ruštině. Na závěr navrhujeme dvě jednoduché metody přiřazování morfologických kategorií k morfům, které je reprezentují. Rovněž využíváme databáze meziřádkového morfematického překladu (Interlinear Glossed Text) pro přiřazení morfologických kate- gorií flektivním morfům za využití CNN-LSTM-CRF klasifikátorů. 1
Keywords:
morph|morpheme|morphematic analysis|segmentation; morf|morfém|morfematická analýza|segmentace
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/190766