Multilingual Voice Deepfake Dataset
Trnovská, Eva ; Reš, Jakub (oponent) ; Malinka, Kamil (vedoucí práce)
This thesis examines the area of voice deepfakes: their creation and detection. It describes the state of current research and the methods of creating fake recordings. Furthermore, it provides a comprehensive analysis of available voice deepfake datasets, based on which a new multilingual dataset is designed and compiled. The dataset aims to enable further research on the generalization of deepfake detection across languages and the differences in the accuracy of male and female voice detection. The results of the experiments show that for the models tested, it is possible to replace detectors trained to detect in a single language with detectors trained on a multilingual set, with an accuracy loss of a few percent. The tested models were generally more accurate in detecting recordings with female voices, but this property was not demonstrated for all tested detectors.
Methods for Realtime Voice Deepfakes Creation
Alakaev, Kambulat ; Pleško, Filip (oponent) ; Malinka, Kamil (vedoucí práce)
This thesis explores the possibility of achieving real-time voice deepfake generation using open-source tools. Through experiments, it was discovered that the generation rate of voice deepfakes is affected by the computing power of the devices running the speech creation tools. A deep learning model was identified to be capable of generating speech in near real time. However, limitations in the tool containing this model prevented continuous input data for real-time generation. To address this, a program was developed to overcome these limitations. The quality of the generated deepfakes was evaluated using both voice deepfake detection models and human online surveys. The results revealed that while the model could deceive detection models, it was not successful in fooling humans. This research highlights the accessibility of open-source voice synthesis tools and the potential for their misuse by individuals for fraudulent purposes.
Reversibility of Voice Change Methods
Lička, Zbyněk ; Firc, Anton (oponent) ; Malinka, Kamil (vedoucí práce)
State-of-the-art voice-changing methods allow inexperienced users to create convincing voice recordings of famous individuals with just a few seconds of recorded speech. There are two major approaches to voice generation: voice conversion and text-to-speech. Voice conversion methods require the user to input source speech to be converted to the target voice. A trend with voice conversion methods, especially those requiring only mere seconds of reference speech, has been restricting the amount of information about the original speaker in the converted speech. This work focuses on studying the amount of information extractable about the original speaker from artificial speech and potentially reconstructing the original speech. The results of this work shed light on an unstudied property of voice-changing methods.
Creating Novel Deepfake Speech Dataset
Sztolarik, Maroš ; Homoliak, Ivan (oponent) ; Firc, Anton (vedoucí práce)
In the recent years, deepfake technology has advanced to a point where it can convincingly mimic human speech, posing significant challenges in distinguishing between real and synthetic voices. In this thesis, we introduce a novel dataset comprising speech deepfakes generated using diffusion models. This dataset, created with two sophisticated text-to-speech tools, DiffSpeech and ProDiff, aims to provide insight into the threat that these new tools pose. Two more datasets are created with more mature tools, Glow-TTS and Tacotron2, to provide a point of comparison. Then all the generated samples are analyzed through two deepfake detectors in order to provide a direct comparison into how much of a threat each tool is to these detectors. The results show that even though the tools utilizing the diffusion models are threatening, the use of diffusion models did not provide these tools any meaningful advantage in evading the detection.
Penetration Tests of Speaker Verification System
Wojnar, Filip ; Landini, Federico Nicolás (oponent) ; Plchot, Oldřich (vedoucí práce)
The aim of the thesis is to realize penetration tests of automatic speaker verification system with use of text-to-speech model. The thesis is focused on inner functioning of those systems and spoofing attacks against them. The thesis is also focused on speech synthesis. Later chapters are focused on realization of realized penetration tests and discussion about results they brought us.
Design a vývoj plug-in nástrojů
Bařák, Šimon ; Dědic, Filip (oponent) ; Kubíková, Zuzana (vedoucí práce)
Plug-in je software, který nepracuje samostatně, ale jako doplňkový modul jiné aplikace a rozšiřuje tak její funkčnost. Obvykle využívá připraveného rozhraní aplikace zvaného API. Množství programů nabízí programátorům možnost použít jejich API (aplikační rozhraní) s možností rozšířit funkčnost příslušného programu.
Hlasem ovládaný elektronický zubní kříž
Hippmann, Radek ; Dostálová, Taťjana (vedoucí práce) ; Hanzlíček, Petr (oponent) ; Racek, Jaroslav (oponent)
Název: Elektronický zubní kříž ovládaný hlasem Autor: MUDr. Radek Hippmann Pracoviště: Dětská stomatologická klinika FN Motol Školitel: Prof. MUDr. Taťjana Dostálová, DrSc., MBA E-mail školitele: Tatjana.Dostalova@fnmotol.cz Tato dizertační práce se zabývá tvorbou komplexní elektronické zdravotnické dokumentace (EHR) pro oblast stomatologie. Tento vzniklý systém je navíc vylepšen o hlasové ovládání pomocí systému Automatic speech recognition (ASR) a o modul pro syntézu řeči Text-to-speech (TTS). První část práce je věnována úvodu do tématiky a jsou vymezeny jednotlivé oblasti, jejichž propojení je nutné pro vytvoření EHR systému pro tuto oblast. Jsou to především základním způsobem vymezené oblasti a pojmy ve stomatologii. Dále jsme se věnovali problematice temporomandibulárního kloubu (TMK), která je často opomíjena a jsou popsány i trendy v EHR a hlasových technologiích. V metodické části jsou popsány technologie při tvorbě EHR systému, hlasového rozpoznávání a klasifikace onemocnění TMK. V další části navazuje popis vlastních výsledků, které korespondují se znalostní bází stomatologie a TMK. Z nich vychází vlastní grafické uživatelské rozhranní Dentcross sloužící pro záznam stomatologických dat. Celá aplikace je ovladatelná hlasem a možné je i hlasové zpětné vyvolání informace pomocí modulu TTS....
Mobile application as a personal trainer
Dzúriková, Veronika
Bakalářská práce se zabývá vývojem Android aplikace pro sportovní trenéry a aktivní lidi. Návrh aplikace sestával ze specifikace požadavků, návrhu databáze a diagramu aktivit, na základě kterých byla následně implementována. Active Android ORM byl vybrán pro databázový mapování s DAO objeky, Java třída AsyncTask pro vyspořádání s více vláknama, a nativní Google text-to-speech technologie pro mluvení během tréninků.

