Název:
Využití hrubé reprezentace slov ve strojovém překladu do češtiny
Překlad názvu:
Coarse Word Representations in Machine Translation into Czech
Autoři:
Tlustý, Marek ; Bojar, Ondřej (vedoucí práce) ; Mareček, David (oponent) Typ dokumentu: Diplomové práce
Rok:
2016
Jazyk:
cze
Abstrakt: [cze][eng] Práce se zabývá možnostmi hrubé reprezentace slov ve strojovém překladu z němčiny a maďarštiny do češtiny. Porovnává různé nástroje na dělení německých a maďarských složenin. Pro maďarštinu je pak navíc navrhnut způsob dělení podstatných jmen v několika variantách. Práce pokračuje experimenty se slovními třídami, kde kombinuje dělení slov a různé konfigurace slovních tříd. Speciálně jsou pak používány třídy dvojjazyčné. Porovnání je vždy provedeno na překladu z němčiny nebo maďarštiny do češtiny. Výstupy jsou hodnoceny automatickými metrikami BLEU a METEOR. Nejlepší konfigurace jsou vyhodnoceny ručně. Ukazuje se, že samotné dělení německých složenin a maďarských podstatných jmen nevede při překladu do češtiny k příliš lepším výsledkům, v kombinaci se slovními třídami je zlepšení výraznější.In this thesis we deal with the possibilities of the coarse word representation in machine translation from German and Hungarian into Czech. First, we compare the different tools for splitting of German and Hungarian compounds. For Hungarian we additionally designed several variants of nouns splitting. Then we experiment with word classes, where we combine splitting of words and several different configurations of word classes. Specially we use the bilingual classes. After that comparison for a translation from German or Hungarian into Czech is made. Outputs are evaluated by automatic metrics BLEU and METEOR. The best configurations are evaluated manually afterwards. It turns out that the solitary splitting of German compounds and Hungarian nouns does not lead to much better results when translated into Czech. In combination with the word classes there is a noticable improvement.