Název:
Vyhodnocení kvality a dostupnosti zdrojů lidské řeči pro tvorbu deepfakes
Překlad názvu:
Evaluation of Sources of Human Speech for Deepfake Creation
Autoři:
Frič, Michal ; Malinka, Kamil (oponent) ; Firc, Anton (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2024
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [eng][cze]
Hlasové deepfaky, posúvané rýchlym vývojom v oblasti umelej inteligencie a strojového učenia, predstavujú technológiu s dvojitým potenciálom, prinášajúcu významné prínosy aj riziká. Tieto syntetické hlasové výstupy sú čím ďalej, tým viac realistické, a to vďaka jednoduchému prístupu k rozsiahlym množstvám ľudskej reči z rôznych zdrojov. Táto práca skúma vhodnosť týchto zdrojov pre tvorbu hlasových deepfakov. Identifikovali sme a hodnotili sme viaceré zdroje reči a vypracovali sme metodológie na posudzovanie ich kvality, dostupnosti, diverzity a frekvencie aktualizácií obsahu. Hodnotenie zahŕňalo aj analýzu vplyvu charakteristík zdrojov na kvalitu deepfakov a efektívnosť detekcie softvérom aj ľudskými hodnotiteľmi. Zistenia ukazujú, že všetky identifikované zdroje sú schopné poskytnúť dostatočne kvalitné nahrávky pre vytvorenie kvalitných, často nerozpoznateľných deepfakov. Súčasne poukazujú na konkrétne silné a slabé stránky (merané vlastnosti) jednotlivých zdrojov. Pri testovaní bola objavená anomália v detekčnom softvéri, ktorá umožňuje upraviť deepfaky tak, aby sa vyhli detekcii. Navyše bolo zistené, že menej ako 10 sekúnd ľudskej reči môže stačiť na vytvorenie kvalitného deepfaku, pričom dĺžka a kvalita vstupných nahrávok sú priamo spojené s kvalitou deepfaku.
Voice deepfakes, powered by rapid advancements in artificial intelligence and machine learning, represent a dual-edge technology with significant benefits and risks. These synthetic voice outputs are increasingly realistic due to the easy access to vast amounts of digital speech data from various sources. This thesis analyses these sources’ suitability for creating convincing deepfakes. We identified and evaluated numerous speech sources and developed methodologies for assessing their quality, accessibility, diversity, and update frequency. The evaluation extended to analyzing the impact of source characteristics on deepfake quality and the effectiveness of detection by software and human evaluators. Findings indicate that all identified sources can provide sufficiently high-quality recordings to create high-quality deepfakes, often indistinguishable. Additionally, they highlight each source’s particular strengths and weaknesses (measured properties) grade. An anomaly in detection software was discovered, allowing deepfakes to be modified to evade detection. Furthermore, less than 10 seconds of human speech could suffice to create a high-quality deepfake, directly correlating the length and quality of input recordings to the fidelity of the output. The thesis concludes with a discussion of the risks associated with these sources and proposes measures for prevention and mitigation.
Klíčová slova:
machine learning; speech obtaining; speech quality; voice deepfakes; voice synthesis; hlasové deepfakes; kvalita reči; strojové učenie; syntéza reči; získavanie reči
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: https://hdl.handle.net/11012/248192