Original title:
Klasifikátor pro sémantické vzory užívání anglických sloves
Translated title:
Classifier for semantic patterns of English verbs
Authors:
Kríž, Vincent ; Holub, Martin (advisor) ; Bojar, Ondřej (referee) Document type: Master’s theses
Year:
2012
Language:
slo Abstract:
[eng][cze] The goal of the diploma thesis is to design, implement and evaluate classifiers for automatic classification of semantic patterns of English verbs according to a pattern lexicon that draws on the Corpus Pattern Analysis. We use a pilot collection of 30 sample English verbs as training and test data sets. We employ standard methods of machine learning. In our experiments we use decision trees, k-nearest neighbourghs (kNN), support vector machines (SVM) and Adaboost algorithms. Among other things we concentrate on feature design and selection. We experiment with both morpho-syntactic and semantic features. Our results show that the morpho-syntactic features are the most important for statistically-driven semantic disambiguation. Nevertheless, for some verbs the use of semantic features plays an important role.Cieľom tejto diplomovej práce je navrhnúť, implementovať a empiricky evaluovať klasifikátory pre rozpoznávanie sémantických patternov anglických slovies. Ako trénovacie a testovacie údaje používame konkordancie z pilotnej kolekcie 30 anglických slovies, ktorá bola spracovaná metódou Corpus Pattern Analysis. Modely klasifikátorov tvoríme pomocou algoritmov strojového učenia s učiteľom. Experimentujeme s rozhodovacími stromami, algoritmom k najbližších susedov (kNN), podpornými vektormi (SVM) a Adaboostom. V práci sa, okrem iného, zameriavame na návrh vhodnej množiny rysov pre strojové učenie (feature selection). Experimentujeme s množinami morfo-syntaktických i sémantických rysov. Naše výsledky ukazujú, že morfo-syntaktické rysy sú najdôležitejšie pre sémantickú desambiguáciu, hoci pre niektoré slovesá hrajú sémantické rysy dôležitú úlohu.
Keywords:
automatic classification; Corpus Pattern Analysis; English verbs; lexical semantics; machine learning; Word Sense Disambiguation; anglické slovesá; automatická klasifikácia; Corpus Pattern Analysis; lexikálna sémantika; strojové učenie; Word Sense Disambiguation
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/39784