Název:
Automatická oprava chyb výstupů překladače CUBBITT
Překlad názvu:
Automatic correction of errors in the CUBBITT translator outputs
Autoři:
Švandelík, Vojtěch ; Popel, Martin (vedoucí práce) ; Vidra, Jonáš (oponent) Typ dokumentu: Bakalářské práce
Rok:
2021
Jazyk:
cze
Abstrakt: [cze][eng] Tato práce se zabývá zpracováním výstupů česko-anglického a anglicko-českého překla- dače CUBBITT. Cílem práce bylo vyvinutí nástroje, který by byl schopen v přeložených větách hledat pomocí pravidlového systému chybně přeložené pasáže a tyto následně opra- vit. V práci se zaměřujeme na několik konkrétních jevů, jimiž jsou především oprava čísel s jednotkami, kterým se překladem změnil původní význam, a oprava oddělovačů tisíců a desetinných čísel, jež překladač někdy ignoruje. Kromě toho jsme se zabývali opravou vlastních jmen osob, která překladač někdy úplně změní. Pro každý z jevů jsme provedli analýzu četnosti a vzniku problému, navrhli způsob řešení a tento způsob jsme imple- mentovali ve vytvořeném balíčku v jazyce Python. Také jsme vytvořili webové rozhraní, kde lze balíček testovat. V práci jsme rovněž vyhodnotili zvolené řešení a navrhli další rozšíření. 1The thesis deals with post-processing of the outputs of the Czech-English and English- Czech translator CUBBITT. The aim of the work was to develop a tool that would be able to search for mistranslated phrases using a rule-based system and subsequently correct such phrases. We focus on a few specific phenomena, mainly the correction of numbers with units whose original meaning has been changed by the translation and the correction of thousand and decimal separators, which are not always adapted to follow the target-language rules. In addition, we have dealt with correcting personal proper names which the translator sometimes changes completely. For each of the phenomena, we have analyzed the frequency and the origin of the problem, proposed a solution, and implemented it in a Python package. We have also created a web interface where the package can be tested. Finally, we have evaluated the accurracy of our solution and suggested further extensions. 1
Klíčová slova:
post-processing strojového překladu|čísla s jednotkami|pravidlový systém|překlad vlastních jmen|balíček v jazyce Python; machine translation post-processing|numbers with units|heuristic system|translation of proper names|Python package