Original title:
Převod šeptané řeči na normální
Translated title:
Whispered to Normal Speech Conversion
Authors:
Gajda, Richard ; Černocký, Jan (referee) ; Brukner, Jan (advisor) Document type: Master’s theses
Year:
2024
Language:
eng Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[eng][cze]
Cílem této práce je vyvinout alternativní řešení k potřebě paralelních datasetů pro natrénování modelů pro konverzi šeptané řeči na normální, a to za pomoci syntézy pseudo-šeptané řeči. Pseudo-šeptané datasety, vygenerované z open-source řečových datasetů jsou použity pro natrénování modelu pro konverzi řeči - na vokodéru BigVGAN. Tento natrénovaný model je nezávislý na mluvčím i jazyce a je ve výsledku porovnán s výchozí implementací (baseline) a již existujícími řešeními.
The goal of this thesis is to develop an alternative solution to parallel datasets needed for whispered to normal voice speech conversion, using pseudo-whispered speech synthesis. Psuedo-whispered datasets generated from open source voice datasets are used to train a voice conversion model (vocoder BigVGAN) which is both speaker and language independent. Resulting model is compared to a baseline and existing solutions.
Keywords:
Konverze Šeptané Řeči na Normální; Syntéza Pseudo-Šeptané Řeči; Zpracování Signálů; Šeptaná Řeč; Pseudo-whispered Speech Synthesis; Signal Processing; W2N Speech Conversion; Whispered Speech
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: https://hdl.handle.net/11012/248569