Název:
Univerzální značkování slovních druhů
Překlad názvu:
Univerzalní morfologický značkovač
Autoři:
Long, Duong Thanh ; Pecina, Pavel (vedoucí práce) ; Žabokrtský, Zdeněk (oponent) Typ dokumentu: Diplomové práce
Rok:
2013
Jazyk:
eng
Abstrakt: [eng][cze] Part-of-speech (POS) tagging is one of the most basic and crucial tasks in Natural Language Processing (NLP). Supervised POS taggers perform well on many resource-rich languages i.e. English, French, Portuguese etc, where manually annotated data is available. However, it is impossible to use a supervised approach for the vast number of resource-poor languages. In this thesis, we apply a multilingual unsupervised method for building taggers for resource-poor languages base additionally on parallel data (Universal Tagger), that is, we use parallel data as the bridge to transfer tag information from resource-rich to resource-poor languages. On average, our tagger performs on par with the state of the art on the same test set of eight languages. However, we use less data and a less sophisticated method which also results in significant difference in speed. In an effort to further improve performance, we investigate the choice of source language. We found that English is rarely the best source language. We successfully built a model that can predict the best source language only based on monolingual data. However, even better predictions can be made if we additionally use parallel data. Finally, we show that, if multiple source languages are available, it is possible to get further improvement by incorporating...Morfologické značkování je jednou ze základních a zásadních úloh v oblasti zpracování přirozeného jazyka. Morfologické značkovače trénované metodami řízeného strojového učení fungují dobře pro jazyky, pro které existují velká ručně anotovaná data, např. angličtina, francouzština, portugalština, atp. Pro ostatní jazyky nelze metody řízeného strojového učení použít. V této práci trénujeme morfologický značkovač metodou neřízeného strojovho učení na vícejazyčných paralelních datech, která jsou použita pro přenos morfologické informace z jednoho (zdrojového) jazyka do druhého (cílového). Naše metoda dosahuje výsledků srovnatelných se současnuými nejlepšími metodami (porovnání provedeno na 8 jazycích), ale používá výrazně méně trénovacích dat a je jednodušší, což má za následek výrazně větší rychlost zpracování. V práci se dále zabýváme otázkou optimální volby zdrojového jazyka. Ukazuje se, že Angličtina je optimální jen výjiměčně. Naše metoda umí predikovat optimální zdrojový jazyk jen na základě jednojazyčných rysů. Při použití rysů z paralelních dat se kvalita predikce zlepšuje. V práci dále ukazujeme, že úspěšnost značkování se zlepšuje v případě kombinace více zdrojových jazyků. Powered by TCPDF (www.tcpdf.org)