Original title:
Efektivní neuronová syntéza řeči
Translated title:
Efficient neural speech synthesis
Authors:
Vainer, Jan ; Dušek, Ondřej (advisor) ; Hajič, Jan (referee) Document type: Master’s theses
Year:
2020
Language:
eng Abstract:
[eng][cze] While recent neural sequence-to-sequence models have greatly improved the quality of speech synthesis, there has not been a system capable of fast training, fast inference and high-quality audio synthesis at the same time. In this the- sis, we present a neural speech synthesis system capable of high-quality faster- than-real-time spectrogram synthesis, with low requirements on computational resources and fast training time. Our system consists of a teacher and a student network. The teacher model is used to extract alignment between the text to synthesize and the corresponding spectrogram. The student uses the alignments from the teacher model to synthesize mel-scale spectrograms from a phonemic representation of the input text efficiently. Both systems utilize simple convo- lutional layers. We train both systems on the english LJSpeech dataset. The quality of samples synthesized by our model was rated significantly higher than baseline models. Our model can be efficiently trained on a single GPU and can run in real time even on a CPU. 1Modely pro práci se sekvenčními daty založené na neuronových sítích v posledních letech výrazně přispěly ke zlepšení kvality systémů pro syntézu řeči. Zatím však nebyl navržen systém, který by se dal rychle a efektivně natrénovat, byl schopen rychlé syntézy a zároveň generoval hlas ve vysoké kvalitě. V této diplomové práci představujeme systém pro syntézu řeči založený na neuronových sítích, který je schopen generovat spektrogramy v reálném čase, má nízké nároky na výpočetní kapacity a je rychle trénovatelný. Náš systém sestává ze dvou neuronových sítí- ze studenta a z učitele. Učitel je využit k aproximaci zarovnání mezi textem, z něhož má být generována mluvená řeč, a mezi korespondujícím spektrogramem. Student využívá získaná zarovnání pro efektivní syntézu spektrogramů z fonet- ické reprezentace vstupního textu. Obě sítě využívají jednoduché konvoluční vrstvy. Náš systém trénujeme na anglické datové sadě LJSpeech. Systém je schopen generovat řeč v reálném čase na běžném procesoru a je možné jej rychle natrénovat na jedné graické kartě. Kvalita řeči generované z našeho systému byla ohodnocena jako signifikantně vyšší v porovnání s konkurenčními systémy. 1
Keywords:
deep learning; natural language processing; speech synthesis; text-to-speech; hluboké učení; syntéza řeči; zpracování přirozeného jazyka
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/119487