Název:
N-gramový jazykový model pro český spellchecker
Překlad názvu:
N-gram language model for a Czech spellchecker
Autoři:
Richter, Michal ; Straňák, Pavel (vedoucí práce) ; Bojar, Ondřej (oponent) Typ dokumentu: Bakalářské práce
Rok:
2008
Jazyk:
cze
Abstrakt: [cze][eng] Cílem práce je prozkoumat možnosti použití n-gramových jazykových modelů pro kontrolu českého spellingu a napsat rozšíření pro spellchecker, které dokáže najít překlepy, jež jsou zároveň platnými českými slovy. Dále také napsat jednoduchou webovou aplikaci, která bude rozšířený spellchecker prezentovat. V této práci byl také prozkoumán vliv využití lemmatizace a morfologické analýzy slov na úspěšnost hledání překlepů. V práci jsou popsány použité metody jazykového modelování. Dále také postup práce programu, který provádí kontrolu spellingu s využitím jazykových modelů. Potom následuje popis způsobu získání dat pro trénování jazykových modelů, zhodnocení vytvořených jazykových modelů. Nakonec jsou uvedeny dosažené výsledky pro jednotlivé varianty kontroly.The aim of this thesis is to explore the possibilities of using n-gram language models for spellchecking Czech texts and to implement an extension to the spellchecker which would be able to find such misspelled words that are true Czech words. Furthermore, the aim was to implement a simple web application which would present the extended spellchecker. The influence of using lemmatization and morphology analysis of words regarding the hit rate of finding misspelled words was also looked into. The methods of language modelling used in the thesis are described first. What follow, then, is the description of the procedure of the spellchecking program using language models. The next part shows the way of getting the data for language model training. In the following part, the evaluation of the language models created is presented. The final part shows the results achieved for each option of spellchecking.