Název:
Základní korektnost překladových ekvivalentů ve frázovém strojovém překladu
Překlad názvu:
Core Fidelity of Translation Options in Phrase-Based Machine Translation
Autoři:
Hübsch, Ondřej ; Bojar, Ondřej (vedoucí práce) ; Libovický, Jindřich (oponent) Typ dokumentu: Bakalářské práce
Rok:
2017
Jazyk:
eng
Abstrakt: [eng][cze] One popular approach to machine translation is to break sentences into small groups of contiguous words (phrases) and then to translate these phrases inde- pendently. Translations of these phrases are extracted beforehand from a large amount of bilingual data. The goal of this thesis is to detect semantical incorrect- ness in the extracted translations of phrases. One source of potential problems is poor quality of training data (high quality parallel data are very hard to ob- tain), more severe are possible problems introduced by double negative in Czech: the translated sentences might have a completely opposite meaning to the orig- inal one. We first tried to modify our prior work to penalize such erroneous translations. Then we designed and trained our own neural model to produce a semantical score for a given phrase translation. We evaluated the improvements on a small manually annotated set of translations and also in an end-to-end ma- chine translation task. Using our model in an end-to-end machine translation system yields a significant improvement of 0.5 BLEU over the baseline. Our model also beats an existing state-of-the-art method not only in the end-to-end translation (by 0.2 BLEU), but also on the manually annotated data by a factor of more than 2 in recognition of incorrect translations. 1Jeden z často používaných přístupů ve strojovém překladu je tzv. frázový překlad. Ten překládá po krátkých úsecích slov - překládaná věta je nejprve rozdělena na malé části, ty jsou přeloženy nezávisle na sobě a následně jsou seskládány zpět dohromady. Překlady těchto krátkých částí se příslušný model naučí dopředu z velkého množství dvojjazyčných vět. Cílem této práce je detekce sémantických chyb v takto naučených překladech krátkých úseků. Jedním ze zdrojů potenciálních problémů může být horší kvalita trénovacích dat; naprosto odpovídající si sady stejných vět jsou totiž velmi vzácné. Horší jsou ale chyby způsobené některými prvky českého jazyka, zejména zdvojené negace - ty totiž způsobí, že vypro- dukované překlady mohou mít zcela protikladný význam k významu vstupní věty. V práci jsme nejprve zkusili poupravit již existující přístupy k filtrování modelů (aby nemohly překládat protikladně). Tyto existující metody se ale příliš neosvědčily, proto jsme navrhli a natrénovali vlastní model založený na neuronových sítích. Ten pro daný frázový pár řekne pravděpodobnost, s jakou si myslí, že je tento pár sémanticky korektní. Vyzkoušeli jsme, nakolik pomáhá...
Klíčová slova:
frázový statistický strojový překlad; správnost překladových hesel; correctness of translation units; phrase-based statistical machine translation