Název:
Využití lingvistických informací při EBMT
Překlad názvu:
The Exploitation of Linguistic Information in EBMT
Autoři:
Týnovský, Miroslav ; Žabokrtský, Zdeněk (oponent) ; Kuboň, Vladislav (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2007
Jazyk:
cze
Abstrakt: [cze][eng] Metoda strojového překladu založená na příkladech (EBMT) je korpusová metoda strojového překladu, která se pokouší získat překlad vstupního textu pomocí analogie s překladem textu podobného již hotového. Tato práce zkoumá význam využití lingvistické informace v této metodě překladu, a to konkrétně na dvou jazykových párech: čeština-angličtina a čeština-němčina. Zahrnuje shromáždění anotovaných paralelních dat pro jazykový pár čeština-němčina, návrh experimentálního EBMT systému, jeho implementaci a vylepšování jeho části s použitím lingvistických informací. Práce také obsahuje podrobné vyhodnocení jak výchozího systému, tak systému využívajícího informace o morfologii a syntaxi a jejich porovnání. Vyhodnocení systému bylo provedeno jednak automatickými metodami BLEU, NIST a METEOR a jednak ručně za pomoci anotátorů. Lingvistické informace aplikované na experimentální EBMT systém zahrnují morfologické a syntaktické porovnávání vstupní věty s příklady v překladové paměti.Example-based machine translation (EBMT) is a corpus-driven method of machine translation. It builds the translation using analogy of the input text with a translation already made. The benefit of using linguistic knowledge within EBMT is the subject of this thesis. Two language pairs are covered: Czech-English and Czech-German. The thesis covers gathering annotated parallel Czech-German data, design and implementation process of an experimental EBMT system, and the effort to improve it using linguistic knowledge. Detailed evaluation and comparison of both the baseline EBMT and the linguistically enhanced system are described. Evaluation has been done using machine and human evaluation methods. The three automatic evaluation methods are BLEU, NIST and METEOR. The linguistic enhancement of the baseline EBMT system includes comparisons of the input sentence with the examples in the translation memory based on morphology and syntax.