Název:
Klasifikátor pro sémantické vzory užívání anglických sloves
Překlad názvu:
Classifier for semantic patterns of English verbs
Autoři:
Kríž, Vincent ; Holub, Martin (vedoucí práce) ; Bojar, Ondřej (oponent) Typ dokumentu: Diplomové práce
Rok:
2012
Jazyk:
slo
Abstrakt: [eng][cze] The goal of the diploma thesis is to design, implement and evaluate classifiers for automatic classification of semantic patterns of English verbs according to a pattern lexicon that draws on the Corpus Pattern Analysis. We use a pilot collection of 30 sample English verbs as training and test data sets. We employ standard methods of machine learning. In our experiments we use decision trees, k-nearest neighbourghs (kNN), support vector machines (SVM) and Adaboost algorithms. Among other things we concentrate on feature design and selection. We experiment with both morpho-syntactic and semantic features. Our results show that the morpho-syntactic features are the most important for statistically-driven semantic disambiguation. Nevertheless, for some verbs the use of semantic features plays an important role.Cieľom tejto diplomovej práce je navrhnúť, implementovať a empiricky evaluovať klasifikátory pre rozpoznávanie sémantických patternov anglických slovies. Ako trénovacie a testovacie údaje používame konkordancie z pilotnej kolekcie 30 anglických slovies, ktorá bola spracovaná metódou Corpus Pattern Analysis. Modely klasifikátorov tvoríme pomocou algoritmov strojového učenia s učiteľom. Experimentujeme s rozhodovacími stromami, algoritmom k najbližších susedov (kNN), podpornými vektormi (SVM) a Adaboostom. V práci sa, okrem iného, zameriavame na návrh vhodnej množiny rysov pre strojové učenie (feature selection). Experimentujeme s množinami morfo-syntaktických i sémantických rysov. Naše výsledky ukazujú, že morfo-syntaktické rysy sú najdôležitejšie pre sémantickú desambiguáciu, hoci pre niektoré slovesá hrajú sémantické rysy dôležitú úlohu.
Klíčová slova:
anglické slovesá; automatická klasifikácia; Corpus Pattern Analysis; lexikálna sémantika; strojové učenie; Word Sense Disambiguation; automatic classification; Corpus Pattern Analysis; English verbs; lexical semantics; machine learning; Word Sense Disambiguation