Original title:
Automatické vytváření slovníků z paralelních korpusů
Translated title:
Automatic dictionary acquisition from parallel corpora
Authors:
Popelka, Jan ; Pecina, Pavel (advisor) ; Mareček, David (referee) Document type: Master’s theses
Year:
2011
Language:
cze Abstract:
[cze][eng] V rámci práce implementujeme vlastní systém pro zarovnání slov v paralelním korpusu. Použitá diskriminativní metoda zarovnání využívá lexikálních asociačních měr a dalších příznaků a vyžaduje malé množství ručně anotovaných trénovacích dat pro optimalizaci parametrů modelu. Optimální zarovnání je nalezeno jako nejlevnější hranové pokrytí v ohodnoceném bipartitním grafu, na základě vybraných suboptimálních zarovnání je rozlišena věrohodnost spojů. Použitá kombinace příznaků je experimentálně vyladěna s ohledem na dosažení optimálních výsledků. Výsledky zarovnání jsou vyhodnoceny a porovnány se systémem GIZA++. Nejlepší natrénovaný model je využit pro zarovnání česko-anglického paralelního korpusu Czeng 0.9. Na základě nejvěrohodnějších spojů je z korpusu extrahován ohodnocený překladový lexikon jednoslovných výrazů. Překladové dvojice jsou seřazeny podle významnosti a je provedeno automatické vyhodnocení přesnosti pro různé velikosti slovníků. Pro tři vybrané velikosti slovníku je vyhodnocení provedeno ručně.In this work, an extensible word-alignment framework is implemented from scratch. It is based on a discriminative method that combines a wide range of lexical association measures and other features and requires a small amount of manually word-aligned data to optimize parameters of the model. The optimal alignment is found as minimum-weight edge cover, selected suboptimal alignments are used to estimate confidence of each alignment link. Feature combination is tuned in the course of many experiments with respect to the results of evaluation. The evaluation results are compared to GIZA++. The best trained model is used to word-align a large Czech-English parallel corpus and from the links of highest confidence a bilingual lexicon is extracted. Single-word translation equivalents are sorted by their significance. Lexicons of different sizes are extracted by taking top N translations. Precision of the lexicons is evaluated automatically and also manually by judging random samples.
Keywords:
discriminative word alignment; lexicon; translation dictionary; diskriminativní zarovnání slov; lexikon; překladový slovník
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/36144