|
Improving text-to-speech in spoken dialogue systems by employing user's feedback
Hudeček, Vojtěch ; Žabokrtský, Zdeněk (advisor) ; Peterek, Nino (referee)
Although spoken dialogue systems have greatly improved, they still cannot handle communications involving unknown topics. One of the problems is, that they experience difficulties when they should pronounce unknown words. We will investigate methods that can improve spoken dialogue systems by correcting the pronunciation of unknown words. This is a crucial step to provide a better user experience, since for example mispronounced proper nouns are highly undesirable. Incorrect pronunciation is caused by imperfect phonetic representation of the word. We aim to detect incorrectly pronounced words, use knowledge about the pronunciation and user's feedback and correct the transcriptions accordingly. Furthermore, the learned phonetic transcriptions can be added to the speech recognition module's vocabulary. Thus extracting correct pronunciations benefits both speech recognition and text-to-speech components of the dialogue systems.
|
| |
|
Implementing and Improving a Speech Synthesis System
Beněk, Tomáš ; Szőke, Igor (referee) ; Hannemann, Mirko (advisor)
Tato práce se zabývá syntézou řeči z textu. V práci je podán základní teoretický úvod do syntézy řeči z textu. Práce je postavena na MARY TTS systému, který umožňuje využít existujících modulů k vytvoření vlastního systému pro syntézu řeči z textu, a syntéze řeči pomocí skrytých Markovových modelů natrénovaných na vytvořené řečové databázi. Bylo vytvořeno několik jednoduchých programů ulehčujících vytvoření databáze a přidání nového jazyka a hlasu pro MARY TTS systém bylo demonstrováno. Byl vytvořen a publikován modul a hlas pro Český jazyk. Byl popsán a implementován algoritmus pro přepis grafémů na fonémy.
|
|
AutoRapper - Automatic Alignment of Speech with a Rhythm
Poliak, Sebastián ; Glembek, Ondřej (referee) ; Černocký, Jan (advisor)
Tato práce popisuje návrh a implementaci aplikace, která automaticky převádí vstupní řeč na rap. Tento proces je založen na zarovnání řeči s rytmem, které je dosaženo pomocí rozpoznávání fonémù, slabikování a časové modifikáce řeči. Další funkce, jako je hudební podklad a vokální efekt jsou přidány za účelem přiblížení se ke skutečnému rapu. Výsledná aplikace je dostupná jako webová služba pro uživatele.
|
|
Použití RLPC inventářů systému Festival v Eposu
Chaloupka, Zdeněk ; Horák, Petr
The aim of this paper is to describe a possibility of the new voices implementation into the Epos text-to-speech (TTS) system. We implemented voices from the Festival TTS system. This system synthesizes text from speech units, which are stored in an inventory file as Residual Linear Prediction Coding (RLPC) coefficients. The inventory file provides every information needed for the text synthesis. The text is synthesized in the MROLA format, thus a phoneme length (and a prosody) can be determined directly.
|
| |
| |
| |
| |
| |