Original title:
Překlad z češtiny do angličtiny
Translated title:
Czech-English Translation
Authors:
Petrželka, Jiří ; Schmidt, Marek (referee) ; Smrž, Pavel (advisor) Document type: Master’s theses
Year:
2010
Language:
eng Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[eng][cze]
Tato diplomová práce popisuje principy statistického strojového překladu a demonstruje, jak sestavit systém pro statistický strojový překlad Moses. V přípravné fázi jsou prozkoumány volně dostupné bilingvní česko-anglické korpusy. Empirická analýza časové náročnosti vícevláknových nástrojů pro zarovnání slov demonstruje, že MGIZA++ může dosáhnout až pětinásobného zrychlení, zatímco PGIZA++ až osminásobného zrychlení (v porovnání s GIZA++). Jsou otestovány tři způsoby morfologického pre-processingu českých trénovacích dat za použití jednoduchých nefaktorových modelů. Zatímco jednoduchá lemmatizace může snížit BLEU, sofistikovanější přístupy většinou BLEU zvyšují. Positivní efekty morfologického pre-processingu se vytrácejí s růstem velikosti korpusu. Vztah mezi dalšími charakteristikami korpusu (velikost, žánr, další data) a výsledným BLEU je empiricky měřen. Koncový systém je natrénován na korpusu CzEng 0.9 a vyhodnocen na testovacím vzorku z workshopu WMT 2010.
This Master's thesis describes the principles of statistical machine translation and demonstrates how to assemble the Moses statistical machine translation system. In the preparation step, a research on freely available bilingual Czech-English corpora is done. An empirical analysis of time requirements of multithreaded word alignment tools demonstrates that MGIZA++ can achieve a five-fold speed-up, while PGIZA++ can reach an eight-fold speed-up (compared to GIZA++).Three scenarios of morphological pre-processing of Czech training data are tested, using simple unfactored models. While pure lemmatization can aggravate the BLEU, more sophisticated approaches usually raise BLEU. The positive effect of morphological pre-processing diminishes as corpus size rises. The relation between other corpora characteristics (size, genre, extra data) and the resulting BLEU are empirically gauged. A final system is trained on the CzEng 0.9 corpus and evaluated on the testing set from WMT 2010 workshop.
Keywords:
Acquis Communautaire; bilingvní korpus; BLEU; CzEng; dekodér; EuroMatrix; GIZA++; HMM; hunalign; IBM model; jazykový model; Kačenka; lemmatizace; Libma; MGIZA++; mkcls; Moses; OpenSubtitles; PDT; PGIZA++; plain2snt; Pražský závislostní korpus; překladový model; Qin Gao; skrytý Markovův model; snt2cooc; SRILM; statistický strojový překlad; viterbi; WMT; zarovnání slov; zpracování přirozeného jazyka; ÚFAL; česká morfologie; Acquis Communautaire; bilingual corpus; BLEU; Czech morphology; CzEng; decoder; EuroMatrix; GIZA++; hidden Markov model; HMM; hunalign; IBM model; IFAL; Kačenka; language model; lemmatization; Libma; MGIZA++; mkcls; Moses; natural language processing; OpenSubtitles; PDT; PGIZA++; plain2snt; Prague Dependency Treebank; Qin Gao; snt2cooc; SRILM; statistical machine translation; translation model; viterbi; WMT; word alignment; ÚFAL
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/54268