|
Automatická tvorba slovníků z překladových textů
Musil, Jakub ; Schmidt, Marek (oponent) ; Smrž, Pavel (vedoucí práce)
Cílem této práce je vytvoření systému pro získání překladu slov zdrojového jazyka do jazyka cílového pomocí ekvivalentní dvojice vstupních textů. V této práci jsou popsány pojmy a metody používané v oblasti strojového překladu a strojové tvorby překladových slovníků. Práce také obsahuje návrh a popis jednotlivých fází, ze kterých se skládá vytvořený systém, včetně závěrečného testování, vyhodnocení získaných překladů a možnosti rozšíření existujícího překladového slovníku.
|
|
Czech-English Translation
Petrželka, Jiří ; Schmidt, Marek (oponent) ; Smrž, Pavel (vedoucí práce)
This Master's thesis describes the principles of statistical machine translation and demonstrates how to assemble the Moses statistical machine translation system. In the preparation step, a research on freely available bilingual Czech-English corpora is done. An empirical analysis of time requirements of multithreaded word alignment tools demonstrates that MGIZA++ can achieve a five-fold speed-up, while PGIZA++ can reach an eight-fold speed-up (compared to GIZA++).Three scenarios of morphological pre-processing of Czech training data are tested, using simple unfactored models. While pure lemmatization can aggravate the BLEU, more sophisticated approaches usually raise BLEU. The positive effect of morphological pre-processing diminishes as corpus size rises. The relation between other corpora characteristics (size, genre, extra data) and the resulting BLEU are empirically gauged. A final system is trained on the CzEng 0.9 corpus and evaluated on the testing set from WMT 2010 workshop.
|
|
Coreference in Text
Pecsők, Ján ; Vidová Hladká, Barbora (vedoucí práce) ; Novák, Michal (oponent)
Cieľom tejto bakalárskej práce je preskúmať možnosti hľadania koreferencií pomocou systému pravidiel na základe morfologických a syntaktických informácií. Súčasťou práce je aj vizualizácia koreferencií v texte a evaluácia jednotlivých pravidiel. Za týmto účelom bola vytvorená aplikácia Koreferencie, ktorá tvorí prostredie pre vizualizáciu textu, tvorenie a evaluáciu pravidiel. Vytvorená a evaluovaná bola sada pravidiel. Súčasťou práce je popis pravidiel a možnosti pravidlového systému spolu s algoritmom aplikácie pravidiel na text. Poslednú časť práce tvorí užívateľská a programátorská dokumentácia.
|
|
Automatická tvorba slovníků z překladových textů
Musil, Jakub ; Schmidt, Marek (oponent) ; Smrž, Pavel (vedoucí práce)
Cílem této práce je vytvoření systému pro získání překladu slov zdrojového jazyka do jazyka cílového pomocí ekvivalentní dvojice vstupních textů. V této práci jsou popsány pojmy a metody používané v oblasti strojového překladu a strojové tvorby překladových slovníků. Práce také obsahuje návrh a popis jednotlivých fází, ze kterých se skládá vytvořený systém, včetně závěrečného testování, vyhodnocení získaných překladů a možnosti rozšíření existujícího překladového slovníku.
|
|
Czech-English Translation
Petrželka, Jiří ; Schmidt, Marek (oponent) ; Smrž, Pavel (vedoucí práce)
This Master's thesis describes the principles of statistical machine translation and demonstrates how to assemble the Moses statistical machine translation system. In the preparation step, a research on freely available bilingual Czech-English corpora is done. An empirical analysis of time requirements of multithreaded word alignment tools demonstrates that MGIZA++ can achieve a five-fold speed-up, while PGIZA++ can reach an eight-fold speed-up (compared to GIZA++).Three scenarios of morphological pre-processing of Czech training data are tested, using simple unfactored models. While pure lemmatization can aggravate the BLEU, more sophisticated approaches usually raise BLEU. The positive effect of morphological pre-processing diminishes as corpus size rises. The relation between other corpora characteristics (size, genre, extra data) and the resulting BLEU are empirically gauged. A final system is trained on the CzEng 0.9 corpus and evaluated on the testing set from WMT 2010 workshop.
|