Název:
Oprava gramatiky v češtině
Překlad názvu:
Czech Grammar Error Correction
Autoři:
Pechman, Petr ; Straka, Milan (vedoucí práce) ; Rosen, Alexandr (oponent) Typ dokumentu: Diplomové práce
Rok:
2024
Jazyk:
cze
Abstrakt: [cze][eng] Představujeme systém na opravu gramatických chyb v českém jazyce. Systém je založen na přístupu neuronového strojového překladu. Požíváme architekturu Trans- former, která je závislá na velkém množství anotovaných dat. Vzhledem k tomu, že pro většinu jazyků včetně češtiny není k dispozici dostatek anotovaných dat, volíme syn- tetické generování dat. Do syntetických chyb zavádíme, jak chyby jednoduché, tak i složitější - typické české chyby. Pro usnadnění experimentování vyvíjíme systém schopný generovat data v reálném čase a rovnou na těchto datech trénovat model. Následně navrhujeme několik vylepšení, jako je převzorkování jazykových domén nebo výběr zdroje dat pro syntetické generování. Náš nejvýkonnější model dosahuje nejlepších výsledků v českém jazyce vůči modelům, které jsou srovnatelně velké. Implementace je zveře- jněna na GitHub pod adresou: https://github.com/petrpechman/czech_gec/tree/ MasterThesis_PechmanPetr_2024. 1We present a grammatical error correction system for correcting the Czech language. The system is based on the neural machine translation approach. We utilize the Trans- former architecture, which depends on a large amount of annotated data. Given that for most languages, including Czech, there is not enough annotated data available, we opt to generate synthetic data with artificial errors. We generate not only using sim- ple language-independent errors, but we also introduce typical Czech errors. To facili- tate quick experimentation, we develop a flexible training pipeline capable of real-time data generation. Consequently, we evaluate the effect of several proposed improvements such as oversampling of language domains or a choice of data source for synthetic gen- eration. Our best-performing model achieves state-of-the-art results in the Czech lan- guage for comparable model size. The implementation is released on GitHub at https: //github.com/petrpechman/czech_gec/tree/MasterThesis_PechmanPetr_2024. 1
Klíčová slova:
oprava gramatiky|GECCC|čeština; grammar error correction|GECCC|Czech