Název:
Application of Artificial Neural Networks in Computational Linguistics
Překlad názvu:
Application of Artificial Neural Networks in Computational Linguistics
Autoři:
Němec, Petr Typ dokumentu: Rigorózní práce
Rok:
2006
Jazyk:
cze
Abstrakt: [cze][eng] Neuronové sítě představují perspektivní přístup k řešení problémů, jejichž přímé algoritmické řešení není známé či dostatečně efektivní. Automatické morfologické značkování je jednou z takových úloh na poli počítačové lingvistiky. K jejímu řešení jsme použili neuronovou síť zpětného šíření (backpropagation) v několika typech experimentů. Při určování správné značky na základě spolehlivého kontextu jsme se přesvědčili o základní schopnosti sítě se problému naučit, ačkoli dosažená úspešnost (89,22%) nedosahovala přesnosti dosahované statistikou (93,47%). Podařilo se nám též určit vhodné parametry sítě a vstupního kontextu pro další experimenty. Pokus určit správnou značku na základě kontextu značek určených předem statistikou přinesl mírné snížení úspěšnosti (88,71%). Konečný experiment, jehož úkolem bylo volit mezi výstupy dvou statistických metod, vykázal vyšší úspěšnost (93,56%) než libovolné z těchto metod (92,74%, 92,58%). Na daném trénovacím korpusu (Pražský závislostní korpus) jde v současné době o absolutně nejlepší dosažený výsledek. Z dosažených výsledků vyplývá doporučení, aby prezentovaná metoda byla vyzkoušena na rozsáhlejší množině dat (Český národní korpus).Neural networks represent a promising approach to problems, which exact algorithmic solution is unknown or not efficient enough. Morphological tagging is one of such tasks in the area of computational linguistics. We have tried to use a backpropagation neural network in several types of experiments. When determining the correct tag on the basis of reliable context, we have learned that the neural tag is basically capable to handle the problem, although the achieved tagging precision (89,22%) did not reach that of statistical methods (93,47%). We also managed to determine appropriate network and context parameters that we have used in the next experiments. The attempt to determine the correct tag on the basis of beforehand statistically determined tags brought a slight decrease of tagging precision (88,71%). Finally, the experiment, which goal was to vote from the outputs of two statistical taggers, showed higher tagging precision (93,56%) than any of these methods (92,74%, 92,58%). It is therefore the overall best result on the given training data set (Prague Dependency Treebank). Hence, it is recommended to test the method by training it on a larger training set (Czech Corpus).