Original title:
Metody strojového učení ve zpracování přirozeného jazyka
Translated title:
Machine-Learning Methods in Natural Language Processing
Authors:
Vantuch, Marek ; Mrnuštík, Michal (referee) ; Otrusina, Lubomír (advisor) Document type: Bachelor's theses
Year:
2011
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Práce se zabývá automatickým značkováním českého jazyka za pomocí existujících implementací, využívajících model Conditional Random Fields a algoritmy L-BFGS a SDG. Jsou popsány základní pravidla značkování a problémy, se kterými se tento obor potýká v případě zpracování českého jazyka. Čtenáři jsou vysvětleny principy použitých algoritmů a modelů, které jsou implementovány v programech CRF++ a CRFSuite. Práce se poté zaměřuje na vlastní testování úspěšnosti na českém korpusu a snaží se nalézt nejvhodnější hodnoty parametrů při využití všech rysů. Při nalezení rozumného kompromisu mezi časem a přesností se poté snaží tuto hodnotu ještě zpřesnit za pomoci analýzy přínosu jednotlivých rysů a možností jejich vynechání.
Firstly, basic rules of tagging of the Czech language are described as well as problems connected to this field. Thereafter the focus of the thesis is put on the success rate of testing on the Czech corpus and at the same time trying to find the most suitable parameter values for using the features. After reaching a reasonable compromise between duration and accuracy, the value is then attempted to be improved using analysis of separate features and their eventual omission.
Keywords:
Conditional Random Fields; L-BFGS; Machine Learning; POS tagging; Conditional Random Fields; L-BFGS; strojové učení; značkování textu
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/55836