Název:
Využití uživatelské odezvy pro zvýšení kvality řečové syntézy
Překlad názvu:
Improving text-to-speech in spoken dialogue systems by employing user's feedback
Autoři:
Hudeček, Vojtěch ; Žabokrtský, Zdeněk (vedoucí práce) ; Peterek, Nino (oponent) Typ dokumentu: Diplomové práce
Rok:
2017
Jazyk:
cze
Abstrakt: [cze][eng] Dialogové systémy využívající mluvené řeči jsou v poslední době stále více zlepšovány, nicméně stále nezvládají rozhovory o neznámých tématech. Jedním z problémů je fakt, že modul pro řečovou syntézu může mít problém některá slova správně vyslovit. V práci prozkoumáme metody, které dokážou špatnou výslovnost detekovat a posléze vylepšit. Toto je zásadní krok pro zlepšení uživatelské přívětivosti, protože například špatná výslovnost vlastních jmen je velmi nežádoucí. Chybná výslovnost je způsobená nesprávnou fonetickou reprezentací slova. Naším cílem je detekovat tato slova, využít známou informaci o výslovnosti a za pomoci uživatelské odezvy opravit fonetickou transkripci. Takto získaná transkripce navíc může být přidána do slovníku rozpoznávače mluvené řeči. Naše metody tedy mohou zlepšit jak rozpoznávání, tak generování mluvené řeči.Although spoken dialogue systems have greatly improved, they still cannot handle communications involving unknown topics. One of the problems is, that they experience difficulties when they should pronounce unknown words. We will investigate methods that can improve spoken dialogue systems by correcting the pronunciation of unknown words. This is a crucial step to provide a better user experience, since for example mispronounced proper nouns are highly undesirable. Incorrect pronunciation is caused by imperfect phonetic representation of the word. We aim to detect incorrectly pronounced words, use knowledge about the pronunciation and user's feedback and correct the transcriptions accordingly. Furthermore, the learned phonetic transcriptions can be added to the speech recognition module's vocabulary. Thus extracting correct pronunciations benefits both speech recognition and text-to-speech components of the dialogue systems.
Klíčová slova:
FST; machine learning; phonetic dictionary; speech recognition; speech synthesis; user feedback; fonetický slovník; FST; rozpoznávání řeči; strojové učení; syntéza řeči; uživatelská odezva