Název:
Strojový překlad pro vietnamštinu s pivotním jazykem
Překlad názvu:
Pivoting Machine Translation for Vietnamese
Autoři:
Hoang, Duc Tam ; Bojar, Ondřej (vedoucí práce) ; Novák, Michal (oponent) Typ dokumentu: Diplomové práce
Rok:
2015
Jazyk:
eng
Abstrakt: [eng][cze] Czech and Vietnamese are the national languages of the Czech Republic and Vietnam, re- spectively. The distinctive features and the shortage of resources renders Czech-Vietnamese machine translation into a difficult task, leading to the fact that no effort has been put into developing a translation tool specifically for the language pair. In this thesis, we develop phrase-based statistical machine translation systems for the language pair and investigate the potential to improve the translation quality with pivoting. Pivoting refers to a set of ma- chine translation approaches through which a natural language, called pivoting language, is introduced to solve the problem of data scarcity between source and target languages, one of the most challenging problems of statistical machine translation. Selecting English as the sole pivoting language for Czech-Vietnamese translation, we prepare training and test- ing corpora for the three language pairs. All possible corpus sources are explored regarding each specific language pair. The next step is to improve quality of the training corpora through normalizing and filtering. Various experiments with pivoting methods are carried out to analyse the performance of pivoting methods in a realistic working condition.Čeština a vietnamština jsou úředními jazyky České republiky a Vietnamu. Vzhledem k charakteristickým rysům těchto dvou jazyků a nedostatku zdrojů dat je česko-vietnamský strojový překlad velmi náročnou úlohou a překladový nástroj zaměřený speciálně na tento konkrétní jazykový pár nebyl dosud vyvinut. V této práci budujeme statistické překladové systémy pro překlad mezi češtinou a vietnamštinou a zkoumáme možnosti vylepšení kvality překladu pomocí překladu přes pivotní jazyk. Využití pivotního jazyka (jiného přirozeného jazyka) dává možnost zapojit do systému dodatečné jazykové zdroje. Jako pivotní jazyk jsme pro česko-vietnamský překlad vybrali angličtinu a připravili jsme trénovací a testovací kor- pus pro tyto tři jazykové páry. Pro každý jazykový pár kombinujeme různé zdroje korpusů a podle potřeby zlepšujeme jejich kvalitu pomocí normalizování a filtrování. S metodami překladu přes pivotní jazyk jsme provedli množství experimentů a analyzovali jsme je v realistických podmínkách.
Klíčová slova:
kaskády systémů; metody překladu přes pivotní jazyk; statistický strojový překlad; triangulace frázové tabulky; phrase table triangulation; pivoting methods; Statistical Machine Translation; system cascades