Název:
Převod šeptané řeči na normální
Překlad názvu:
Whispered to Normal Speech Conversion
Autoři:
Gajda, Richard ; Černocký, Jan (oponent) ; Brukner, Jan (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2024
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [eng][cze]
Cílem této práce je vyvinout alternativní řešení k potřebě paralelních datasetů pro natrénování modelů pro konverzi šeptané řeči na normální, a to za pomoci syntézy pseudo-šeptané řeči. Pseudo-šeptané datasety, vygenerované z open-source řečových datasetů jsou použity pro natrénování modelu pro konverzi řeči - na vokodéru BigVGAN. Tento natrénovaný model je nezávislý na mluvčím i jazyce a je ve výsledku porovnán s výchozí implementací (baseline) a již existujícími řešeními.
The goal of this thesis is to develop an alternative solution to parallel datasets needed for whispered to normal voice speech conversion, using pseudo-whispered speech synthesis. Psuedo-whispered datasets generated from open source voice datasets are used to train a voice conversion model (vocoder BigVGAN) which is both speaker and language independent. Resulting model is compared to a baseline and existing solutions.
Klíčová slova:
Pseudo-whispered Speech Synthesis; Signal Processing; W2N Speech Conversion; Whispered Speech; Konverze Šeptané Řeči na Normální; Syntéza Pseudo-Šeptané Řeči; Zpracování Signálů; Šeptaná Řeč
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: https://hdl.handle.net/11012/248569