National Repository of Grey Literature 3 records found  Search took 0.00 seconds. 
Semi-Supervised Speech-to-Text Recognition with Text-to-Speech Critic
Baskar, Murali Karthick ; Manohar, Vimal (referee) ; Trmal, Jan (referee) ; Burget, Lukáš (advisor)
Modely pro automatické rozpoznávání řeči (ASR) vyžadují pro dosažení přijatelné přesnosti velké množství trénovacích dat. Z tohoto důvodu se v poslední době zvýšil zájem o trénování seq2seq modelů bez dohledu a s částečným dohledem. Tato práce vychází z nedávných výsledků, které ukázaly výrazné zlepšení trénování s částečným dohledem pomocí cyklické konzistence a souvisejících technik. Ty využívají trénovací postupy a kritéria schopná pomocí kombinace ASR s modely převodu textu na řeč (TTS) zužitkovat nesouvisející řečová a/nebo textová data.  Tato práce nejprve navrhuje nový rámec pro modelování kombinující diferencovatelné end-to-end kritérium ASR->TTS s kritériem TTS->ASR. Tato metoda dokáže využít nesouvisející řečová a textová data a překonat související techniky ve slovní chybovosti (WER). Práce obsahuje rozsáhlou sadu výsledků analyzujících vliv množství dat i vliv podílu řeči a textu na opravách chyb. Výsledky dokládají konzistentní zlepšení na korpusech WSJ a LibriSpeech.   Práce se rovněž zabývá omezeními modelu ASR<->TTS v podmínkách mimo doménu trénovacích dat (out-of-domain). Navrhujeme vylepšený model ASR<->TTS (EAT), zahrnující dva klíčové komponenty: 1) směr ASR->TTS je doplněn jazykovým model, který penalizuje hypotézy ASR před jejich vstupem do TTS; a 2) ve směru TTS->ASR je zavedena regularizace trénovaná bez dohledu tak, aby opravovala syntetizovanou řeč před vstupem do modelu ASR. Zkoumáme strategie trénování a účinnost modelu EAT a porovnáme jej s přístupy umělého zvyšování množství (augmentace) dat. Výsledky ukazují, že model EAT snižuje rozdíl v úspěšnosti mezi trénováním bez dohledu a trénováním s částečným dohledem absolutně o 2,6% WER na LibriSpeech datech a o 2,7% WER na BABEL datech.

Interested in being notified about new results for this query?
Subscribe to the RSS feed.