Název:
Sémantická informace ze sítě FrameNet a možnosti jejího využití pro česká data
Překlad názvu:
Semantic information from FrameNet and the possibility of its transfer to Czech data
Autoři:
Limburská, Adéla ; Lopatková, Markéta (vedoucí práce) ; Holub, Martin (oponent) Typ dokumentu: Diplomové práce
Rok:
2016
Jazyk:
eng
Abstrakt: [eng][cze] The thesis focuses on transferring FrameNet annotation from English to Czech and the possibilities of using the resulting data for automatic frame prediction in Czech. The first part, annotation transfer, has been performed in two ways. First, a parallel corpus of English sentences and their human created Czech translations (PCEDT) was used. Second, a much larger parallel corpus was created using ma- chine translation of FrameNet example sentences. This corpus was then used to transfer the annotation as well. The resulting data were partially evaluated and some of the automatically detectable errors were filtered out. Subsequently, the data were used as an input for two machine learning methods, decision trees and support vector machines. Since neither of the machine learning experiments brought impressive results, further manual correction of the data annotation was performed, which helped increase the accuracy of the prediction. However, as the accuracy reported in related papers is notably higher, the thesis also discusses dif- ferent approaches to feature selection and the possibility of further improvement of the prediction results using these methods. 1Tématem práce je převod anotace z databáze FrameNet do češtiny a možnost využití takto vzniklých dat pro automatické předpovídání rámců. První část tohoto úkolu, převod anotace z angličtiny do češtiny, byla provedena dvěma způ- soby. Nejprve byl k tomuto účelu použit paralelní korpus anglických vět a jejich českých překladů (PCEDT), následně byl podobný, ale mnohonásobně větší ko- rpus vytvořen strojovým překladem příkladových vět z databáze FrameNet do češtiny. Výsledná data byla částečně ručně evaluována a došlo rovněž k automat- ickému vyřazení snadno rozpoznatelných chyb. Získaná data byla poté použita v experimentech zaměřených na automatické přiřazování rámců pomocí metod strojového učení (rozhodovacích stromů a support vector machines). Vzhledem k tomu, že obě metody dosáhly v předpovídání rámců poměrně nízké úspěšnosti, byla provedena další ruční korekce vstupních dat, čímž se podařilo kvalitu přiřa- zování rámců zvýšit. Srovnání s podobnými experimenty popsanými v odborné literatuře však ukázalo, že výsledky automatického předpovídání významů mohou dosahovat ještě vyšší úspěšnosti. Práce se proto zmiňuje také o odlišných přís- tupech k výběru rysů a možnostech dalšího zlepšování výsledků automatického přiřazování rámců za použití strojového učení. 1
Klíčová slova:
FrameNet; strojové učení; sémantika rámců; word sense disambiguation; čeština; Czech; frame semantics; FrameNet; machine learning; word sense disambiguation