Original title:
Hledání struktury vět přirozeného jazyka pomocí částečně řízených metod
Translated title:
Discovering the structure of natural language sentences by semi-supervised methods
Authors:
Rosa, Rudolf ; Žabokrtský, Zdeněk (advisor) ; Tiedemann, Jörg (referee) ; Horák, Aleš (referee) Document type: Doctoral theses
Year:
2018
Language:
eng Abstract:
[eng][cze] Discovering the structure of natural language sentences by semi-supervised methods Rudolf Rosa In this thesis, we focus on the problem of automatically syntactically ana- lyzing a language for which there is no syntactically annotated training data. We explore several methods for cross-lingual transfer of syntactic as well as morphological annotation, ultimately based on utilization of bilingual or multi- lingual sentence-aligned corpora and machine translation approaches. We pay particular attention to automatic estimation of the appropriateness of a source language for the analysis of a given target language, devising a novel measure based on the similarity of part-of-speech sequences frequent in the languages. The effectiveness of the presented methods has been confirmed by experiments conducted both by us as well as independently by other respectable researchers. 1Odhalování struktury vět přirozeného jazyka pomocí částečně řízených metod Rudolf Rosa V této dizertaci se zaměřujeme na problém automatického syntaktického rozboru jazyků, pro něž nejsou k dispozici žádná syntakticky anotovaná trénovací data. Zkoumáme několik metod mezijazyčného přenosu syntaktické i morfo- logické anotace, a nakonec docházíme k metodám založeným na využití dvo- jjazyčných či vícejazyčných korpů zarovnaných na úrovni vět, a strojového překladu. Zvláštní pozornost věnujeme automatickému odhadování vhodnosti zdrojového jazyka pro analýzu daného cílového jazyka, a navrhujeme novou míru založenou na podobnostech častých sledů slovních druhů. Účinnost představených postupů byla ověřena jak v našich pokusech, tak nezávisle v pracech uznávaných světových vědců. 1
Keywords:
cross-lingual processing; dependency parsing; multilingual processing; part-of-speech tagging; mezijazyčné zpracování jazyka; vícejazyčné zpracování jazyka; značkování slovních druhů; závislostní větný rozbor
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/101340