|
Unsupervised Dependency Parsing
Mareček, David ; Žabokrtský, Zdeněk (vedoucí práce) ; Jurčíček, Filip (oponent) ; Sogaard, Anders (oponent)
Neřízená závislostní analýza je alternativní způsob určování vztahů mezi slovy ve větě. Nepotřebuje žádný anotovaný závislostní korpus, je nezávislý na jazykové teorii a univerzální pro velké množství jazyků. Jeho nevýhodou je ale zatím relativně nízká úspěšnost. V této práci diskutujeme některé předchozí práce a představujeme novou metodu neřízenéhé analýzy. Náš závislostní model se skládá ze čtyř podmodelů: (i) hranový model, který řídí rozdělení dvojic řídících a závislých členů, (ii) model plodnosti, který řídí počet členů závislých na uzlu, (iii) model vzdálenosti, který řídí délku závislostních hran a (iv) model vypustitelnosti. Tento model je založen na předpokladu, že slovaů která se mohou z věty vypustit, aniž by se porušila její gramatičnost jsou v závislostním slově listy. Odvození závislostních struktur provádíme pomocí Gibbsova vzorkovače. Představujeme vzorkovací algoritmus, který zachovovává projektivitu závislostních stromů, cože je velmi užitečnou vlastností. V našich experimentech na 30 jazycích srovnáváme výsledky pro různé parametry modelů. Naše metoda překonávvá dříve publikované výsledky pro většinu zkoumaných jazyků.
|