Název:
Statistický strojový překlad mezi češtinou a slovenštinou
Překlad názvu:
Czech-Slovak Statistical Machine Translation
Autoři:
Astaloš, Lukáš ; Kouřil, Jan (oponent) ; Smrž, Pavel (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2013
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Cílem téhle práce je navrhnout, implementovat a vyhodnotit úspěšnost vytvořeného systému pro překlad českých textů do slovenštiny. Popisuje teoretické základy statistického strojového překladu a pak samotnou fázi návrhu a vývoje systému. Zvolenou strategií bylo použít jeden rozsáhlý paralelní korpus v kombinaci s jazykovým modelem poskytovaným místním jazykovědným ústavem pro vytvoření překladového modelu založeném na frázích. Pro tenhle účel byl použit nástroj Moses. Experimentálně byl otestován také slovníkový překlad neznámých slov použitím stemmování. Úspěšnost systému byla vyhodnocena metrikou BLEU, přičemž dosažené výsledky byly porovnatelné s jinými systémy.
The aim of this thesis is to design, implement and evaluate the translation system capable of translating texts from Czech to Slovak language. It describes theoretical foundations of statistical machine translation and then the phase of design and development of system. The chosen strategy was to build phrase-based translation model using one large parallel corpus in combination with language model from local institute of linguistics. The statistical machine translation Moses was used to achieve this goal. The vocabulary translation of unknown words using stemming was proposed and tested. Precision of build system was evaluated with BLEU score and it achieved comparable results with other systems.
Klíčová slova:
BLEU; dekodér; fráza; GIZA; Google Translate; grow-diag-final-and; IBM modely; jazykový model; MERT; Moses; paralelný korpus; slovníkový překlad; statistický strojový překlad; zarovnání slov; Česílko; BLEU; decoder; GIZA; Google Translate; grow-diag-final-and; IBM models; language model; MERT; Moses; parallel corpus; phrase; statistical machine translation; vocabulary translation; word alignment; Česílko
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/55079