Název:
Automatická oprava pravopisu
Překlad názvu:
Natural Language Correction
Autoři:
Náplava, Jakub ; Straka, Milan (vedoucí práce) ; Straňák, Pavel (oponent) Typ dokumentu: Diplomové práce
Rok:
2017
Jazyk:
eng
Abstrakt: [eng][cze] The goal of this thesis is to explore the area of natural language correction and to design and implement neural network models for a range of tasks ranging from general grammar correction to the specific task of diacritization. The thesis opens with a description of existing approaches to natural language correction. Existing datasets are reviewed and two new datasets are introduced: a manually annotated dataset for grammatical error correction based on CzeSL (Czech as a Second Language) and an automatically created spelling correction dataset. The main part of the thesis then presents design and implementation of three models, and evaluates them on several natural language correction datasets. In comparison to existing statistical systems, the proposed models learn all knowledge from training data; therefore, they do not require an error model or a candidate generation mechanism to be manually set, neither they need any additional language information such as a part of speech tags. Our models significantly outperform existing systems on the diacritization task. Considering the spelling and basic grammar correction tasks for Czech, our models achieve the best results for two out of the three datasets. Finally, considering the general grammatical correction for English, our models achieve results which are...Cílem této diplomové práce je prozkoumat oblast automatické korekce pravopisu (jazyka) a navrhnout sadu modelů založených na neuronových sítí pro řešení úkolů počínaje opravou gramatiky až po diakritizaci. Diplomová práce začíná popisem postupů k jednotlivým problémům automatické korekce pravopisu. Dále jsou představeny již existující a dva nové datasety: dataset pro opravu gramatiky v češtině odvozený od datasetu CzeSL (Czech as a Second Language) a dataset s automaticky vytvořenými českými překlepy. Hlavní část této diplomové práce je věnována návrhu, implementaci a vyhodnocení tří navržených modelů na vybraných problémech automatické korekce pravopisu. Hlavní výhodou našich modelů v porovnání s existujícími statistickými systémy je fakt, že se vše dokáží naučit pouze z trénovacích dat. Naopak u současných statistických systémů musí být specifikován chybový model, model pro generování potencionálních oprav a mnohdy je také potřeba systém pro generování morfologických slovních druhů daného jazyka. Naše modely překonávají současné systémy na generování diakritizace. Při opravování překlepů a menších gramatických chyb je úspěšnost našich modelů lepší na 2 ze 3 datasetů. V gramatické korekci textu pak dosahujeme horších, i když stále srovnatelných, výsledků s nedávno nejlepším modelem.
Klíčová slova:
hluboké učení; kontrola pravopisu; oprava pravopisu; zpracování přirozeného jazyka; deep learning; language correction; natural language processing; spell checking