Název:
Detection and Correction of Inconsistencies in the Multilingual Treebank HamleDT
Překlad názvu:
Detection and Correction of Inconsistencies in the Multilingual Treebank HamleDT
Autoři:
Mašek, Jan ; Žabokrtský, Zdeněk (vedoucí práce) ; Mareček, David (oponent) Typ dokumentu: Diplomové práce
Rok:
2015
Jazyk:
eng
Abstrakt: [eng][cze] We studied the treebanks included in HamleDT and partially unified their label sets. Afterwards, we used a method based on variation n-grams to automatically detect errors in morphological and dependency annotation. Then we used the output of a part-of-speech tagger / dependency parser trained on each treebank to correct the detected errors. The performance of both the detection and the correction of errors on both annotation levels was manually evaluated on a randomly selected samples of suspected errors from several treebanks. Powered by TCPDF (www.tcpdf.org)Prostudovali jsme závislostní korpusy, jež jsou součástí projektu HamleDT, a částečně jsme sjednotili soubor značek užitých pro anotaci syntaktické roviny. Následně jsme použili metodu založenou na variačních n-gramech pro automatickou detekci chyb na morfologické a syntaktické rovině. Potom jsme využili výstup morfologického značkovače, respektive závislostního syntaktického analyzátoru pro opravení chyb detekovaných v předchozím kroku. Spolehlivost detekce i opravy chyb na obou anotačních rovinách jsme vyhodnotili na základě náhodně vybraných vzorků nalezených předpokládaných chyb z několika korpusů. Powered by TCPDF (www.tcpdf.org)
Klíčová slova:
detekce chyb; oprava chyb; variační n-gramy; závislostní korpusy; dependency treebanks; error correction; error detection; variation n-grams