Název:
Syntaktický analyzátor pro český jazyk
Překlad názvu:
Syntactic Analyzer for Czech Language
Autoři:
Beneš, Vojtěch ; Otrusina, Lubomír (oponent) ; Kouřil, Jan (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2014
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Diplomová práce popisuje teoretický návrh a vytvoření syntaktického analyzátoru pro český jazyk pracujícího s frázovým přístupem ke stavbě věty. Využívaná frázová syntaxe je založena na slovních druzích, které jsou sdružovány do větších slovních celků - frází. Implementovaný program pracuje s manuálně sestaveným anotovaným vzorkem dat (korpusem češtiny), na základě kterého za běhu vytvoří pravděpodobnostní bezkontextovou gramatiku (strojové učení). Syntaktický analyzátor, jehož jádrem je rozšířený CKY algoritmus, poté pro zadanou českou větu rozhodne, zda-li patří do jazyka generovaného vytvořenou gramatikou, a v kladném případě vrátí nejpravděpodobnější derivační strom této věty. Tento výsledek je následně porovnán s očekávaným řešením, čímž je vyhodnocena úspěšnost syntaktické analýzy.
Master’s thesis describes theoretical basics, solution design, and implementation of constituency (phrasal) parser for Czech language, which is based on a part of speech association into phrases. Created program works with manually built and annotated Czech sample corpus to generate probabilistic context free grammar within runtime machine learning. Parser implementation, based on extended CKY algorithm, then for the input Czech sentence decides if the sentence can be generated by the created grammar and for the positive cases constructs the most probable derivation tree. This result is then compared with the expected parse to evaluate constituency parser success rate.
Klíčová slova:
frázový syntax; korpus; PBKG; pravděpodobnostní bezkontextová gramatika; rozšířený CKY algoritmus; syntaktický analyzátor; Zpracování přirozeného jazyka; český jazyk; constituency parsing; corpus; Czech language; extended CKY algorithm; Natural language processing; NLP; parser; PCFG; phrasal syntax; probabilistic context free grammar
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/53265