Název:
Efektivní neuronová syntéza řeči
Překlad názvu:
Efficient neural speech synthesis
Autoři:
Vainer, Jan ; Dušek, Ondřej (vedoucí práce) ; Hajič, Jan (oponent) Typ dokumentu: Diplomové práce
Rok:
2020
Jazyk:
eng
Abstrakt: [eng][cze] While recent neural sequence-to-sequence models have greatly improved the quality of speech synthesis, there has not been a system capable of fast training, fast inference and high-quality audio synthesis at the same time. In this the- sis, we present a neural speech synthesis system capable of high-quality faster- than-real-time spectrogram synthesis, with low requirements on computational resources and fast training time. Our system consists of a teacher and a student network. The teacher model is used to extract alignment between the text to synthesize and the corresponding spectrogram. The student uses the alignments from the teacher model to synthesize mel-scale spectrograms from a phonemic representation of the input text efficiently. Both systems utilize simple convo- lutional layers. We train both systems on the english LJSpeech dataset. The quality of samples synthesized by our model was rated significantly higher than baseline models. Our model can be efficiently trained on a single GPU and can run in real time even on a CPU. 1Modely pro práci se sekvenčními daty založené na neuronových sítích v posledních letech výrazně přispěly ke zlepšení kvality systémů pro syntézu řeči. Zatím však nebyl navržen systém, který by se dal rychle a efektivně natrénovat, byl schopen rychlé syntézy a zároveň generoval hlas ve vysoké kvalitě. V této diplomové práci představujeme systém pro syntézu řeči založený na neuronových sítích, který je schopen generovat spektrogramy v reálném čase, má nízké nároky na výpočetní kapacity a je rychle trénovatelný. Náš systém sestává ze dvou neuronových sítí- ze studenta a z učitele. Učitel je využit k aproximaci zarovnání mezi textem, z něhož má být generována mluvená řeč, a mezi korespondujícím spektrogramem. Student využívá získaná zarovnání pro efektivní syntézu spektrogramů z fonet- ické reprezentace vstupního textu. Obě sítě využívají jednoduché konvoluční vrstvy. Náš systém trénujeme na anglické datové sadě LJSpeech. Systém je schopen generovat řeč v reálném čase na běžném procesoru a je možné jej rychle natrénovat na jedné graické kartě. Kvalita řeči generované z našeho systému byla ohodnocena jako signifikantně vyšší v porovnání s konkurenčními systémy. 1
Klíčová slova:
hluboké učení; syntéza řeči; zpracování přirozeného jazyka; deep learning; natural language processing; speech synthesis; text-to-speech