Název:
Detekce podezřelých anotací
Překlad názvu:
Detekce podezřelých anotací
Autoři:
Václ, Jan ; Vidová Hladká, Barbora (vedoucí práce) ; Hana, Jiří (oponent) Typ dokumentu: Bakalářské práce
Rok:
2011
Jazyk:
eng
Abstrakt: [eng][cze] This work describes a machine learning approach for checking the part-of-speech annotation, and presents its implementation - a system called MissTagger. The checking procedure covers both error detection and error correction. MissTagger employs a simplified instance-based learning algorithm where the words in the text are recognized as instances. Part-of-speech tags of context of static length are selected as features, no lexical information is included. The words whose tags comprises this context are chosen based either on a linear or on a dependency-tree structure of the sentence. Two languages are examined in the experiments for evaluation, Czech and English.Tato práce popisuje způsob kontroly morfologické anotace pomocí strojového učení a představuje implementaci tohoto přístupu - aplikaci MissTagger. Procedura kontroly zahrnuje jak detekci chyb, tak jejich opravu. Tento přístup je založen na zjednodušeném algoritmu strojového učení, který si jednotlivé trénovací případy (instance) ukládá přímo do paměti bez zobecňování. Za tyto instance jsou považovány morfologické značky jednotlivých slov a jako rysy těchto instancí je brán jejich větný kontext pevné délky. Konkrétní slova, jejichž morfologické značky tvoří tento kontext, se vybírají buď přímo podle lineární struktury věty, nebo na základě závislostního stromu její syntaktické analýzy. Do experimentů k vyhodnocení tohoto přístupu jsou zapojeny dva jazyky - čeština a angličtina.
Klíčová slova:
anotace; detekce chyb; strojové učení; annotation; error detection; machine learning