|
Evaluation of Sources of Human Speech for Deepfake Creation
Frič, Michal ; Malinka, Kamil (referee) ; Firc, Anton (advisor)
Hlasové deepfaky, posúvané rýchlym vývojom v oblasti umelej inteligencie a strojového učenia, predstavujú technológiu s dvojitým potenciálom, prinášajúcu významné prínosy aj riziká. Tieto syntetické hlasové výstupy sú čím ďalej, tým viac realistické, a to vďaka jednoduchému prístupu k rozsiahlym množstvám ľudskej reči z rôznych zdrojov. Táto práca skúma vhodnosť týchto zdrojov pre tvorbu hlasových deepfakov. Identifikovali sme a hodnotili sme viaceré zdroje reči a vypracovali sme metodológie na posudzovanie ich kvality, dostupnosti, diverzity a frekvencie aktualizácií obsahu. Hodnotenie zahŕňalo aj analýzu vplyvu charakteristík zdrojov na kvalitu deepfakov a efektívnosť detekcie softvérom aj ľudskými hodnotiteľmi. Zistenia ukazujú, že všetky identifikované zdroje sú schopné poskytnúť dostatočne kvalitné nahrávky pre vytvorenie kvalitných, často nerozpoznateľných deepfakov. Súčasne poukazujú na konkrétne silné a slabé stránky (merané vlastnosti) jednotlivých zdrojov. Pri testovaní bola objavená anomália v detekčnom softvéri, ktorá umožňuje upraviť deepfaky tak, aby sa vyhli detekcii. Navyše bolo zistené, že menej ako 10 sekúnd ľudskej reči môže stačiť na vytvorenie kvalitného deepfaku, pričom dĺžka a kvalita vstupných nahrávok sú priamo spojené s kvalitou deepfaku.
|