Název:
Detekce a obnova slov mimo slovník
Překlad názvu:
Out-of-Vocabulary Words Detection and Recovery
Autoři:
Egorova, Ekaterina ; Hannemann, Mirko (oponent) ; Schaaf, Thomas (oponent) ; Černocký, Jan (vedoucí práce) Typ dokumentu: Disertační práce
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [eng][cze]
Tato disertační práce zkoumá oblast zpracování slov mimo slovník (out-of-vocabulary word, OOV) v rámci úlohy automatického rozpoznávání řeči (automatic speech recognition, ASR). Definuje dvě samostatné úlohy zpracování OOV - detekci a obnovu - a pro obě úlohy navrhuje metriky úspěšnosti. Prezentuje několik přístupů k detekci a obnově OOV v rámci hybridních a end-to-end (E2E) ASR systémů. Experimentální práce a srovnání přístupů bylo provedeno na otevřené databázi LibriSpeech, aby byla zajištěna reprodukovatelnost experimentů. Hybridní přístup využívá upravený dekódovací graf s fonémovými podřetězci a pro detekci a obnovu opakujících se OOV využívá reprezentaci založenou na plných rozpoznávacích grafech (lattices). Obnovená OOV jsou přidána do slovníku a jazykového modelu (LM), což vede ke zlepšení úspěšnosti ASR systému. Druhý přístup využívá k řešení úlohy detekce OOV vnitřní reprezentace systému E2E architektury "Listen Attend and Spell" (LAS) s predikcí slov. Tato metoda oproti hybridnímu přístupu výrazně zlepšuje míru úplnosti a přesnosti (recall a precision). Obnova opakujících se OOV se provádí pomocí samostatného systému predikce znaků s využitím detekovaných časových rámců a pravděpodobnostního shlukování.Nakonec navrhujeme novou "speller" architekturu se schopností učit se reprezentace OOV společně s trénováním sítě pro predikci slov (word predicting network, WPN). Komponent "speller" ovlivňuje během trénování slovní embeddingy tak, aby dobře reprezentovaly i fonetickou podobu slov, a tím zajišťuje nejen možnost kvalitní obnovy OOV, ale i zlepšení výkonu sítě pro predikci slov.
The thesis explores the field of out-of-vocabulary word (OOV) processing within the task of automatic speech recognition (ASR). It defines the two separate OOV processing tasks - that of detection and recovery - and proposes success metrics for both the tasks. Different approaches to OOV detection and recovery are presented within the frameworks of hybrid and end-to-end (E2E) ASR. These approaches and compared on an open access LibriSpeech database to facilitate replicability. Hybrid approach uses modified decoding graph with phoneme substrings and utilizes full lattice representations for detection and recovery of recurrent OOVs. Recovered OOVs are added to the dictionary and the language model (LM) to improve ASR system performance. The second approach employs inner representations of a word-predicting Listen Attend and Spell architecture (LAS) E2E system to perform OOV detection task. Detection recall and precision rates improved drastically in comparison with the hybrid approach. Recur-rent OOV recovery is performed on a separate character-predicting system with the use of detected time frames and probabilistic clustering.Finally, we propose a new speller architecture with a capability of learning OOV representations together with the word predicting network (WPN) training. The speller forces word embeddings to be spelling-aware during the training and thus not only provides OOV recovery, but also improves the WPN performance.
Klíčová slova:
automatic speech recognition; end-to-end ASR; hybrid ASR; Listen Attend and Spell.; neural architectures; out-of-vocabulary words; automatické rozpoznávání řeči; E2E ASR; hybridní ASR; Listen Attend and Spell.; neurální architektury; Slova mimo slovník
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/213823