Original title:
Syntaktický analyzátor pro český jazyk
Translated title:
Syntactic Analyzer for Czech Language
Authors:
Beneš, Vojtěch ; Otrusina, Lubomír (referee) ; Kouřil, Jan (advisor) Document type: Master’s theses
Year:
2014
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Diplomová práce popisuje teoretický návrh a vytvoření syntaktického analyzátoru pro český jazyk pracujícího s frázovým přístupem ke stavbě věty. Využívaná frázová syntaxe je založena na slovních druzích, které jsou sdružovány do větších slovních celků - frází. Implementovaný program pracuje s manuálně sestaveným anotovaným vzorkem dat (korpusem češtiny), na základě kterého za běhu vytvoří pravděpodobnostní bezkontextovou gramatiku (strojové učení). Syntaktický analyzátor, jehož jádrem je rozšířený CKY algoritmus, poté pro zadanou českou větu rozhodne, zda-li patří do jazyka generovaného vytvořenou gramatikou, a v kladném případě vrátí nejpravděpodobnější derivační strom této věty. Tento výsledek je následně porovnán s očekávaným řešením, čímž je vyhodnocena úspěšnost syntaktické analýzy.
Master’s thesis describes theoretical basics, solution design, and implementation of constituency (phrasal) parser for Czech language, which is based on a part of speech association into phrases. Created program works with manually built and annotated Czech sample corpus to generate probabilistic context free grammar within runtime machine learning. Parser implementation, based on extended CKY algorithm, then for the input Czech sentence decides if the sentence can be generated by the created grammar and for the positive cases constructs the most probable derivation tree. This result is then compared with the expected parse to evaluate constituency parser success rate.
Keywords:
constituency parsing; corpus; Czech language; extended CKY algorithm; Natural language processing; NLP; parser; PCFG; phrasal syntax; probabilistic context free grammar; frázový syntax; korpus; PBKG; pravděpodobnostní bezkontextová gramatika; rozšířený CKY algoritmus; syntaktický analyzátor; Zpracování přirozeného jazyka; český jazyk
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/53265