Název:
Automatická korektura chyb ve výstupu strojového překladu
Překlad názvu:
Automatic Error Correction of Machine Translation Output
Autoři:
Variš, Dušan ; Bojar, Ondřej (vedoucí práce) ; Mareček, David (oponent) Typ dokumentu: Diplomové práce
Rok:
2016
Jazyk:
eng
Abstrakt: [eng][cze] We present MLFix, an automatic statistical post-editing system, which is a spiritual successor to the rule- based system, Depfix. The aim of this thesis was to investigate the possible approaches to automatic identification of the most common morphological errors produced by the state-of-the-art machine translation systems and to train sufficient statistical models built on the acquired knowledge. We performed both automatic and manual evaluation of the system and compared the results with Depfix. The system was mainly developed on the English-to- Czech machine translation output, however, the aim was to generalize the post-editing process so it can be applied to other language pairs. We modified the original pipeline to post-edit English-German machine translation output and performed additional evaluation of this modification. Powered by TCPDF (www.tcpdf.org)Představujeme MLFix, systém pro automatickou statistickou post-editaci, který je duchovním následníkem pravidlového systému, Depfixu. Cílem této práce bylo prozkoumat možné postupy automatické identifikace nejčastějších morfologických chyb tvořených současnými systémy pro strojový překlad a natrénovat vhodné statistické modely, které by byly postaveny na získaných znalostech. Provedli jsme automatickou i ruční evaluaci našeho systému a výsledky porovnali s Depfixem. Systém byl vyvíjen především na výstupech anglicko-českého strojového překladu, cílem ale bylo zobecnit post-editační proces tak, aby byl aplikovatelný na další jazykové páry. Upravili jsme původní pipeline, aby post-editovala výstupy anglicko-německého strojového překladu, a provedli dodatečnou evaluaci této modifikace. Powered by TCPDF (www.tcpdf.org)
Klíčová slova:
automatická post-editace; strojové učení s dohledem; strojový překlad; Treex; zpracování přirozeného jazyka; automatic post-editing; machine translation; natural language processing; supervised machine learning; Treex