Název:
Vícejazyčná datová sada hlasových deepfakes
Překlad názvu:
Multilingual Voice Deepfake Dataset
Autoři:
Trnovská, Eva ; Reš, Jakub (oponent) ; Malinka, Kamil (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2024
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [eng][cze]
Tato práce se zabývá oblastí hlasových deepfakes: jejich vytvářením a detekcí. Popisuje aktuální stav výzkumu v této oblasti a metody pro vytváření falešných nahrávek. Dále poskytuje širší analýzu dostupných datových sad obsahující hlasové deepfakes, na jejímž základě je navržena a vytvořena nová vícejazyčná datová sada. Tato sada má za cíl umožnit další výzkum v oblasti zobecňování detekce deepfakes napříč jazyky a rozdílech v přesnosti detekce mužského a ženského hlasu. Výsledky experimetů ukazují, že u testovaných modelů je možné nahrazení detektorů trénovaných pro detekci v jediném jazyce detektory, jež jsou natrénované na vícejazyčné sadě, a to se ztrátou přesnosti v jednotkách procent. Testované modely byly obecně přesnější při detekci nahrávek s ženskými hlasy, ovšem tato vlastnost se neprokázala u všech testovaných detektorů.
This thesis examines the area of voice deepfakes: their creation and detection. It describes the state of current research and the methods of creating fake recordings. Furthermore, it provides a comprehensive analysis of available voice deepfake datasets, based on which a new multilingual dataset is designed and compiled. The dataset aims to enable further research on the generalization of deepfake detection across languages and the differences in the accuracy of male and female voice detection. The results of the experiments show that for the models tested, it is possible to replace detectors trained to detect in a single language with detectors trained on a multilingual set, with an accuracy loss of a few percent. The tested models were generally more accurate in detecting recordings with female voices, but this property was not demonstrated for all tested detectors.
Klíčová slova:
dataset analysis; deepfake detection; multilingual dataset; text-to-speech; voice conversion; voice deepfakes; analýza datasetů; detekce deepfakes; hlasové deepfakes; konverze hlasu; převod textu na řeč; vícejazyčná datová sada
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: https://hdl.handle.net/11012/249403