Název:
Reverzibilnost metod pro změnu hlasu
Překlad názvu:
Reversibility of Voice Change Methods
Autoři:
Lička, Zbyněk ; Firc, Anton (oponent) ; Malinka, Kamil (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2024
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [eng][cze]
Moderní metody pro změnu hlasu dovolují i nezkušeným uživatelům vytvářet přesvědčívé nahrávky hlasu slavné osoby s pouze pár sekundami nahraného ukázkového hlasu. Existují dvě hlavní kategorie metod pro změnu hlasu: konverze hlasu a text-to-speech. Metody konverze hlasu vyžadují vstupní řeč, která má být konvertována do hlasu jiného řečníka. Moderní metody pro konverzi hlasu se často zabývají odstraněním či redukcí množství informací o původním řečníkovi v konvertovaném hlasu. Tato práce se zabývá možnostmi pro extrakci informací z konvertovaného hlasu s případnou kompletní rekonstrukcí vstupní řeči. Výsledky této práce odhalují poznatky o nestudované vlastnosti těchto metod.
State-of-the-art voice-changing methods allow inexperienced users to create convincing voice recordings of famous individuals with just a few seconds of recorded speech. There are two major approaches to voice generation: voice conversion and text-to-speech. Voice conversion methods require the user to input source speech to be converted to the target voice. A trend with voice conversion methods, especially those requiring only mere seconds of reference speech, has been restricting the amount of information about the original speaker in the converted speech. This work focuses on studying the amount of information extractable about the original speaker from artificial speech and potentially reconstructing the original speech. The results of this work shed light on an unstudied property of voice-changing methods.
Klíčová slova:
classification; input reconstruction; inverse networks; model inversion; neural networks; reversibility; text-to-speech; TTS; VC; voice changing; voice conversion; inverze modelu; inverzní neuronové sítě; klasifikace; konverze hlasu; neuronové sítě; rekonstrukce vstupu; reverzibilnost; text-to-speech; TTS; VC; změna hlasu
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: https://hdl.handle.net/11012/248545