Original title:
Reverzibilnost metod pro změnu hlasu
Translated title:
Reversibility of Voice Change Methods
Authors:
Lička, Zbyněk ; Firc, Anton (referee) ; Malinka, Kamil (advisor) Document type: Master’s theses
Year:
2024
Language:
eng Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[eng][cze]
Moderní metody pro změnu hlasu dovolují i nezkušeným uživatelům vytvářet přesvědčívé nahrávky hlasu slavné osoby s pouze pár sekundami nahraného ukázkového hlasu. Existují dvě hlavní kategorie metod pro změnu hlasu: konverze hlasu a text-to-speech. Metody konverze hlasu vyžadují vstupní řeč, která má být konvertována do hlasu jiného řečníka. Moderní metody pro konverzi hlasu se často zabývají odstraněním či redukcí množství informací o původním řečníkovi v konvertovaném hlasu. Tato práce se zabývá možnostmi pro extrakci informací z konvertovaného hlasu s případnou kompletní rekonstrukcí vstupní řeči. Výsledky této práce odhalují poznatky o nestudované vlastnosti těchto metod.
State-of-the-art voice-changing methods allow inexperienced users to create convincing voice recordings of famous individuals with just a few seconds of recorded speech. There are two major approaches to voice generation: voice conversion and text-to-speech. Voice conversion methods require the user to input source speech to be converted to the target voice. A trend with voice conversion methods, especially those requiring only mere seconds of reference speech, has been restricting the amount of information about the original speaker in the converted speech. This work focuses on studying the amount of information extractable about the original speaker from artificial speech and potentially reconstructing the original speech. The results of this work shed light on an unstudied property of voice-changing methods.
Keywords:
inverze modelu; inverzní neuronové sítě; klasifikace; konverze hlasu; neuronové sítě; rekonstrukce vstupu; reverzibilnost; text-to-speech; TTS; VC; změna hlasu; classification; input reconstruction; inverse networks; model inversion; neural networks; reversibility; text-to-speech; TTS; VC; voice changing; voice conversion
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: https://hdl.handle.net/11012/248545