Original title:
Neřízená závistlostní analýza
Translated title:
Unsupervised Dependency Parsing
Authors:
Mareček, David ; Žabokrtský, Zdeněk (advisor) ; Jurčíček, Filip (referee) ; Sogaard, Anders (referee) Document type: Doctoral theses
Year:
2012
Language:
eng Abstract:
[eng][cze] Unsupervised dependency parsing is an alternative approach to identifying relations between words in a sentence. It does not require any annotated treebank, it is independent of language theory and universal across languages. However, its main disadvantage is its so far quite low parsing quality. This thesis discusses some previous works and introduces a novel approach to unsupervised parsing. Our dependency model consists of four submodels: (i) edge model, which controls the distribution of governor-dependent pairs, (ii) fertility model, which controls the number of node's dependents, (iii) distance model, which controls the length of the dependency edges, and (iv) reducibility model. The reducibility model is based on a hypothesis that words that can be removed from a sentence without violating its grammaticality are leaves in the dependency tree. Induction of the dependency structures is done using Gibbs sampling method. We introduce a sampling algorithm that keeps the dependency trees projective, which is a very valuable constraint. In our experiments across 30 languages, we discuss the results of various settings of our models. Our method outperforms the previously reported results on a majority of the test languages.Neřízená závislostní analýza je alternativní způsob určování vztahů mezi slovy ve větě. Nepotřebuje žádný anotovaný závislostní korpus, je nezávislý na jazykové teorii a univerzální pro velké množství jazyků. Jeho nevýhodou je ale zatím relativně nízká úspěšnost. V této práci diskutujeme některé předchozí práce a představujeme novou metodu neřízenéhé analýzy. Náš závislostní model se skládá ze čtyř podmodelů: (i) hranový model, který řídí rozdělení dvojic řídících a závislých členů, (ii) model plodnosti, který řídí počet členů závislých na uzlu, (iii) model vzdálenosti, který řídí délku závislostních hran a (iv) model vypustitelnosti. Tento model je založen na předpokladu, že slovaů která se mohou z věty vypustit, aniž by se porušila její gramatičnost jsou v závislostním slově listy. Odvození závislostních struktur provádíme pomocí Gibbsova vzorkovače. Představujeme vzorkovací algoritmus, který zachovovává projektivitu závislostních stromů, cože je velmi užitečnou vlastností. V našich experimentech na 30 jazycích srovnáváme výsledky pro různé parametry modelů. Naše metoda překonávvá dříve publikované výsledky pro většinu zkoumaných jazyků.
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/42010