Název:
Automatické skloňování v češtině
Překlad názvu:
Automatic inflection in Czech language
Autoři:
Sourada, Tomáš ; Rosa, Rudolf (vedoucí práce) ; Vidra, Jonáš (oponent) Typ dokumentu: Bakalářské práce
Rok:
2023
Jazyk:
eng
Abstrakt: [eng][cze] This thesis focuses on the task of automatic morphological inflection of Czech nouns, specifically in out-of-vocabulary (OOV) conditions (inflecting previously unseen words). We automatically extracted a large dataset suit- able for training and evaluation in the OOV conditions. We also manually built a real-world OOV dataset of neologisms. We developed three different systems: a retrograde model performing a variation of kNN algorithm, and two sequence-to-sequence (seq2seq) models based on LSTM and Transformer. Compared to an available rule-based inflection system sklonuj.cz and stan- dard SIGMORPHON shared task baselines, our seq2seq model reaches the best results in the standard OOV conditions. Moreover, it achieves state-of- the-art results for 6 out of 16 development languages from SIGMORPHON 2022 shared task data in the OOV evaluation (feature overlap) on large data condition. On the real-world OOV dataset, the retrograde model outper- forms all neural models and is competitive with a non-neural SIGMORPHON baseline. We release the inflection system with seq2seq model as a ready-to- use Python library. It could serve as a complement to the state-of-the-art dictionary-based inflection system MorphoDiTa as a back-off for OOV words, especially once extended to other parts of speech. 1Tato bakalářská práce se zaměřuje na automatické skloňování českých podstatných jmen, zejména slov, která nejsou zahrnuta ve slovníku (tzv. out- of-vocabulary, OOV) - skloňovánípředem neviděných slov. Automaticky jsme extrahovali rozsáhlý dataset vhodný pro trénování a vyhodnocení za OOV podmínek. Dále jsme manuálně vytvořili dataset vyskloňovaných reálných OOV slov - neologismů. Vyvinuli jsme tři různé systémy: retrográdní model založený na algoritmu k-nejbližších sousedů (kNN) a dva modely sequence- to-sequence (seq2seq) založené na LSTM a Transformeru. V porovnání se stávajícím skloňovacím systémem sklonuj.cz a standardními baseline systémy ze SIGMORPHON shared tasks jsme za OOV podmínek s naším seq2seq mo- delem dosáhli nejlepších výsledků. Dále jsme dosáhli state-of-the-art výsledků pro 6 ze 16 vývojových (development) jazyků zahrnutých v datech SIGMOR- PHON 2022 shared task, při vyhodnocení za OOV podmínek (feature over- lap condition) a při trénování na větším datasetu (large data condition). Na datasetu reálných OOV slov byly všechny neuronové modely překonány retrográdním modelem, který dosahuje výsledků srovnatelných s neneuro- novým SIGMORPHON baseline systémem. Představujeme a zveřejňujeme...
Klíčová slova:
automatické skloňování|morfologie|generování přirozeného jazyka|čeština|skloňování|flexe|neslovníková slova; automatic inflection|morphology|natural language generation|Czech language|inflection|declension|morphological inflection|out-of-vocabulary words