Název:
Automatické vytváření slovníků z paralelních korpusů
Překlad názvu:
Automatic dictionary acquisition from parallel corpora
Autoři:
Popelka, Jan ; Pecina, Pavel (vedoucí práce) ; Mareček, David (oponent) Typ dokumentu: Diplomové práce
Rok:
2011
Jazyk:
cze
Abstrakt: [cze][eng] V rámci práce implementujeme vlastní systém pro zarovnání slov v paralelním korpusu. Použitá diskriminativní metoda zarovnání využívá lexikálních asociačních měr a dalších příznaků a vyžaduje malé množství ručně anotovaných trénovacích dat pro optimalizaci parametrů modelu. Optimální zarovnání je nalezeno jako nejlevnější hranové pokrytí v ohodnoceném bipartitním grafu, na základě vybraných suboptimálních zarovnání je rozlišena věrohodnost spojů. Použitá kombinace příznaků je experimentálně vyladěna s ohledem na dosažení optimálních výsledků. Výsledky zarovnání jsou vyhodnoceny a porovnány se systémem GIZA++. Nejlepší natrénovaný model je využit pro zarovnání česko-anglického paralelního korpusu Czeng 0.9. Na základě nejvěrohodnějších spojů je z korpusu extrahován ohodnocený překladový lexikon jednoslovných výrazů. Překladové dvojice jsou seřazeny podle významnosti a je provedeno automatické vyhodnocení přesnosti pro různé velikosti slovníků. Pro tři vybrané velikosti slovníku je vyhodnocení provedeno ručně.In this work, an extensible word-alignment framework is implemented from scratch. It is based on a discriminative method that combines a wide range of lexical association measures and other features and requires a small amount of manually word-aligned data to optimize parameters of the model. The optimal alignment is found as minimum-weight edge cover, selected suboptimal alignments are used to estimate confidence of each alignment link. Feature combination is tuned in the course of many experiments with respect to the results of evaluation. The evaluation results are compared to GIZA++. The best trained model is used to word-align a large Czech-English parallel corpus and from the links of highest confidence a bilingual lexicon is extracted. Single-word translation equivalents are sorted by their significance. Lexicons of different sizes are extracted by taking top N translations. Precision of the lexicons is evaluated automatically and also manually by judging random samples.
Klíčová slova:
diskriminativní zarovnání slov; lexikon; překladový slovník; discriminative word alignment; lexicon; translation dictionary