Original title:
Detection and Correction of Inconsistencies in the Multilingual Treebank HamleDT
Translated title:
Detection and Correction of Inconsistencies in the Multilingual Treebank HamleDT
Authors:
Mašek, Jan ; Žabokrtský, Zdeněk (advisor) ; Mareček, David (referee) Document type: Master’s theses
Year:
2015
Language:
eng Abstract:
[eng][cze] We studied the treebanks included in HamleDT and partially unified their label sets. Afterwards, we used a method based on variation n-grams to automatically detect errors in morphological and dependency annotation. Then we used the output of a part-of-speech tagger / dependency parser trained on each treebank to correct the detected errors. The performance of both the detection and the correction of errors on both annotation levels was manually evaluated on a randomly selected samples of suspected errors from several treebanks. Powered by TCPDF (www.tcpdf.org)Prostudovali jsme závislostní korpusy, jež jsou součástí projektu HamleDT, a částečně jsme sjednotili soubor značek užitých pro anotaci syntaktické roviny. Následně jsme použili metodu založenou na variačních n-gramech pro automatickou detekci chyb na morfologické a syntaktické rovině. Potom jsme využili výstup morfologického značkovače, respektive závislostního syntaktického analyzátoru pro opravení chyb detekovaných v předchozím kroku. Spolehlivost detekce i opravy chyb na obou anotačních rovinách jsme vyhodnotili na základě náhodně vybraných vzorků nalezených předpokládaných chyb z několika korpusů. Powered by TCPDF (www.tcpdf.org)
Keywords:
dependency treebanks; error correction; error detection; variation n-grams; detekce chyb; oprava chyb; variační n-gramy; závislostní korpusy
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/62601