Název:
Strojový překlad mluvené řeči přes fonetickou reprezentaci zdrojové řeči
Překlad názvu:
Spoken Language Translation via Phoneme Representation of the Source Language
Autoři:
Polák, Peter ; Bojar, Ondřej (vedoucí práce) ; Peterek, Nino (oponent) Typ dokumentu: Diplomové práce
Rok:
2020
Jazyk:
eng
Abstrakt: [eng][cze] We refactor the traditional two-step approach of automatic speech recognition for spoken language translation. Instead of conventional graphemes, we use phonemes as an intermediate speech representation. Starting with the acoustic model, we revise the cross-lingual transfer and propose a coarse-to-fine method providing further speed-up and performance boost. Further, we review the translation model. We experiment with source and target encoding, boosting the robustness by utilizing the fine-tuning and transfer across ASR and SLT. We empirically document that this conventional setup with an alternative representation not only performs well on standard test sets but also provides robust transcripts and translations on challenging (e.g., non-native) test sets. Notably, our ASR system outperforms commercial ASR systems. 1Revidujeme tradičný dvojkrokový prístup automatického rozpoznávania reči pre pre- klad hovoreného jazyka. Namiesto konvenčných grafémov používame fonémy ako reprezen- táciu reči v medzikroku. Počnúc akustickým modelom, revidujeme prenos medzi jazykmi a navrhujeme "coarse-to-fine" metódu, ktorá poskytuje ďalšie zrýchlenie konvergencie a zvýšenie výkonu. Ďalej skúmame prekladový model. Experimentujeme so zdrojovým a cieľovým kódovaním a zvyšujeme robustnosť pomocou fine-tuningu a transferu medzi ASR a SLT. Empiricky dokumentujeme, že toto konvenčné nastavenie s alternatívnou reprezentáciou nielen dobre funguje na štandardných testovacích súboroch, ale tiež posky- tuje kvalitné transkripty a preklady na náročných (napr. nerodilých) testovacích dátach. Náš ASR systém prekonáva komerčné ASR systémy. 1
Klíčová slova:
automatic speech recognition; non-native speech translation; spoken language translation; transfer learning