National Repository of Grey Literature 5 records found  Search took 0.01 seconds. 
Methods for Realtime Voice Deepfakes Creation
Alakaev, Kambulat ; Pleško, Filip (referee) ; Malinka, Kamil (advisor)
Tato práce zkoumá možnosti generování hlasových deepfake v reálném čase pomocí nástrojů s otevřeným zdrojovým kódem. Experimenty bylo zjištěno, že rychlost generování hlasových deepfakes je ovlivněna výpočetním výkonem zařízení, na kterých jsou nástroje pro tvorbu řeči spuštěny. Byl identifikován model hlubokého učení, který je schopen generovat řeč téměř v reálném čase. Omezení nástroje obsahujícího tento model však bránila kontinuálnímu zadávání vstupních dat pro generování v reálném čase. K řešení tohoto problému byl vyvinut program, který tato omezení překonává. Kvalita generovaných deepfakes byla hodnocena jak pomocí modelů pro detekci hlasových deepfake, tak pomocí online průzkumů na lidech. Výsledky ukázaly, že zatímco model dokázal oklamat detekční modely, nebyl úspěšný při oklamání lidí. Tento výzkum upozorňuje na dostupnost nástrojů pro syntézu hlasu s otevřeným zdrojovým kódem a na možnost jejich zneužití jednotlivci k podvodným účelům.
Creating Novel Deepfake Speech Dataset
Sztolarik, Maroš ; Homoliak, Ivan (referee) ; Firc, Anton (advisor)
V posledných rokoch deepfake technológia postúpila do bodu kedy je schopná uveriteľne napodobniť ľudský hlas, čím predstavuje významné výzvy v rozslišovaní medzi skutočnými a syntetickými hlasmi. V tejto práci predstavujeme novú dátovú sadu obsahujúcu deepfake reč generovanú pomocou difúznych modelov. Táto dátová sada, vytvorená s pomocou dvoch sofistikovaných nástrojov pre prevod textu na reč, DiffSpeech a ProDiff, mieri poskytnúť náhľad do hrozby tieto nové nástroje predstavujú. Dve ďaľšie dátové sady sú vytvorené s viac vyspelými nástrojmi pre poskytnutie bodu porovnania. Potom sú všetky vygenerované vzorky analyzované dvomi deepfake detektormi pre priame porovnanie akú veľkú hrozbu každý nástroj predstavuje. Výsledky ukazujú, že aj keď nástroje ktoré využívajú difúzne modely predstavujú hrozbu, použitie difúznych modelov neposkytlo týmto nástrojom nijakú významnú výhodu vo vyhýbaní sa detekcii.
Semi-Supervised Speech-to-Text Recognition with Text-to-Speech Critic
Baskar, Murali Karthick ; Manohar, Vimal (referee) ; Trmal, Jan (referee) ; Burget, Lukáš (advisor)
Modely pro automatické rozpoznávání řeči (ASR) vyžadují pro dosažení přijatelné přesnosti velké množství trénovacích dat. Z tohoto důvodu se v poslední době zvýšil zájem o trénování seq2seq modelů bez dohledu a s částečným dohledem. Tato práce vychází z nedávných výsledků, které ukázaly výrazné zlepšení trénování s částečným dohledem pomocí cyklické konzistence a souvisejících technik. Ty využívají trénovací postupy a kritéria schopná pomocí kombinace ASR s modely převodu textu na řeč (TTS) zužitkovat nesouvisející řečová a/nebo textová data.  Tato práce nejprve navrhuje nový rámec pro modelování kombinující diferencovatelné end-to-end kritérium ASR->TTS s kritériem TTS->ASR. Tato metoda dokáže využít nesouvisející řečová a textová data a překonat související techniky ve slovní chybovosti (WER). Práce obsahuje rozsáhlou sadu výsledků analyzujících vliv množství dat i vliv podílu řeči a textu na opravách chyb. Výsledky dokládají konzistentní zlepšení na korpusech WSJ a LibriSpeech.   Práce se rovněž zabývá omezeními modelu ASR<->TTS v podmínkách mimo doménu trénovacích dat (out-of-domain). Navrhujeme vylepšený model ASR<->TTS (EAT), zahrnující dva klíčové komponenty: 1) směr ASR->TTS je doplněn jazykovým model, který penalizuje hypotézy ASR před jejich vstupem do TTS; a 2) ve směru TTS->ASR je zavedena regularizace trénovaná bez dohledu tak, aby opravovala syntetizovanou řeč před vstupem do modelu ASR. Zkoumáme strategie trénování a účinnost modelu EAT a porovnáme jej s přístupy umělého zvyšování množství (augmentace) dat. Výsledky ukazují, že model EAT snižuje rozdíl v úspěšnosti mezi trénováním bez dohledu a trénováním s částečným dohledem absolutně o 2,6% WER na LibriSpeech datech a o 2,7% WER na BABEL datech.
Design and development of plug-in tools
Bařák, Šimon ; Dědic, Filip (referee) ; Kubíková, Zuzana (advisor)
A plug-in is software that does not work independently, but as an add-on module to another application, thus extending its functionality. It usually uses a ready-made application interface called an API. Many programs offer programmers the ability to use their API (application interface) with the ability to extend the functionality of the program.
Design and development of plug-in tools
Bařák, Šimon ; Dědic, Filip (referee) ; Kubíková, Zuzana (advisor)
A plug-in is software that does not work independently, but as an add-on module to another application, thus extending its functionality. It usually uses a ready-made application interface called an API. Many programs offer programmers the ability to use their API (application interface) with the ability to extend the functionality of the program.

Interested in being notified about new results for this query?
Subscribe to the RSS feed.