Original title:
Metriky pro optimalizaci modelů strojového překladu
Translated title:
Metrics for Optimizing Statistical Machine Translation
Authors:
Macháček, Matouš ; Bojar, Ondřej (advisor) ; Popel, Martin (referee) Document type: Bachelor's theses
Year:
2012
Language:
cze Abstract:
[cze][eng] Moderní automatické překladové systémy používají takzvaný loglineární model, který skládá dohromady více dílčích modelů a pomocí nich predikuje pravděpodobnost překladu dané věty. Každý dílčí model má v loglineárním modelu svojí váhu. Tyto váhy jsou dnes obecně optimalizovány na skóre automatické metriky BLEU, přestože jsou k dispozici i jiné metriky, z nichž některé korelují lépe s lidskými anotátory než metrika BLEU. V této práci zkoumáme ruzné metriky (PER, WER, CDER, TER, BLEU a SemPOS) z hlediska korelace s lidskými anotátory. Hloubeji se věnujeme metrice SemPOS a navrhujeme některé její aproximace a varianty. Uvedené metriky jsme použili v metodě MERT při optimalizaci překladového systému z angličtiny do češtiny a zkoumali jsme, jak optimalizování na ruzné automatické metriky ovlivní výslednou kvalitu systému. V rámci této práce jsme také některé metriky implementovali pro použití v metodě MERT.State-of-the-art MT systems use so called log-linear model, which combines several components to predict the probability of the translation of a given sentence. Each component has its weight in the log-linear model. These weights are generally trained to optimize BLEU, but there are many alternative automatic metrics and some of them correlate better with human judgments than BLEU. We explore various metrics (PER, WER, CDER, TER, BLEU and SemPOS) in terms of correlation with human judgments. Metric SemPOS is examined in more detail and we propose some approximations and variants. We use the examined metrics to train Czech to English MT system using MERT method and explore how optimizing toward various automatic evaluation metrics affects the resulting model.
Keywords:
automatic metric; machine translation; natural language processing; optimization; automatická metrika; optimalizace modelů; strojový překlad; zpracování přirozeného jazyka
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/40015