Název:
Vícejazyčná syntéza řeči
Překlad názvu:
Multilingual speech synthesis
Autoři:
Nekvinda, Tomáš ; Dušek, Ondřej (vedoucí práce) ; Peterek, Nino (oponent) Typ dokumentu: Diplomové práce
Rok:
2020
Jazyk:
eng
Abstrakt: [eng][cze] This work explores multilingual speech synthesis. We compare three models based on Tacotron that utilize various levels of parameter sharing. Two of them follow recent multilingual text-to-speech systems. The first one makes use of a fully-shared encoder and an adversarial classifier that removes speaker-dependent information from the encoder. The other uses language-specific encoders. We introduce a new approach that combines the best of both previous methods. It enables effective parameter sharing using a meta- learning technique, preserves encoder's flexibility, and actively removes speaker-specific information in the encoder. We compare the three models on two tasks. The first one aims at joint multilingual training on ten languages and reveals their knowledge-sharing abilities. The second concerns code-switching. We show that our model effectively shares information across languages, and according to a subjective evaluation test, it produces more natural and accurate code-switching speech.Tato práce se zabývá vícejazyčnou syntézou řeči. Porovnali jsme tři odlišné modely, které jsou založeny na Tacotronu. Tyto modely se liší především v přístupu ke sdílení infor- mací a parametrů mezi jazyky. Dva z nich navazují na současné systémy pro vícejazyčnou konverzi textu na řeč. První využívá plně sdíleného enkodéru a doménově specifického klasifikátoru, který je modifikovaný za účelem odstranění informací, které závisí na syn- tetizovaném hlase, z enkodéru. Druhý model používá separátní enkodér pro každý jazyk. V této práci navrhujeme nový přístup, který kombinuje nejlepší z obou zmíněných metod. Díky technikám metaučení umožnujě efektivní sdílení parametrů při zachování flexibility. Tyto tři modely porovnáváme na dvou úlohách. Jedna z nich se zaměřuje na sdružené vícejazyčné učení na deseti jazycích a odhaluje možnosti porovnávaných modelů sdílet znalosti mezi jazyky. Druhá se zabývá syntézou vět, které obsahují výrazy z několika různých jazyků. Dokládáme, že náš nový přístup umožˇuje efektivní sdílení informace mezi jazyky a že dle subjektivního hodnocení produkuje přirozenější řeč bez častých přeřeků a chyb ve výslovnosti.
Klíčová slova:
hluboké učení; syntéza řeči; vícejazyčnost; zpracování přirozeného jazyka; deep learning; multilinguality; natural language processing; speech synthesis; text-to-speech