Original title:
Detekce podezřelých anotací
Translated title:
Detekce podezřelých anotací
Authors:
Václ, Jan ; Vidová Hladká, Barbora (advisor) ; Hana, Jiří (referee) Document type: Bachelor's theses
Year:
2011
Language:
eng Abstract:
[eng][cze] This work describes a machine learning approach for checking the part-of-speech annotation, and presents its implementation - a system called MissTagger. The checking procedure covers both error detection and error correction. MissTagger employs a simplified instance-based learning algorithm where the words in the text are recognized as instances. Part-of-speech tags of context of static length are selected as features, no lexical information is included. The words whose tags comprises this context are chosen based either on a linear or on a dependency-tree structure of the sentence. Two languages are examined in the experiments for evaluation, Czech and English.Tato práce popisuje způsob kontroly morfologické anotace pomocí strojového učení a představuje implementaci tohoto přístupu - aplikaci MissTagger. Procedura kontroly zahrnuje jak detekci chyb, tak jejich opravu. Tento přístup je založen na zjednodušeném algoritmu strojového učení, který si jednotlivé trénovací případy (instance) ukládá přímo do paměti bez zobecňování. Za tyto instance jsou považovány morfologické značky jednotlivých slov a jako rysy těchto instancí je brán jejich větný kontext pevné délky. Konkrétní slova, jejichž morfologické značky tvoří tento kontext, se vybírají buď přímo podle lineární struktury věty, nebo na základě závislostního stromu její syntaktické analýzy. Do experimentů k vyhodnocení tohoto přístupu jsou zapojeny dva jazyky - čeština a angličtina.
Keywords:
annotation; error detection; machine learning; anotace; detekce chyb; strojové učení
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/38707