National Repository of Grey Literature 8 records found  Search took 0.00 seconds. 
Penetration Tests of Speaker Verification System
Nguyen, QuangTrang ; Rohdin, Johan Andréas (referee) ; Plchot, Oldřich (advisor)
The aim of this bachelor thesis is to create a penetration tests of speaker verification system with the use of the speech synthesis method. This work studies methods of spoofing against automatic speaker verification system. Before designing of the test set, the system and it's components that were used in this work are described. The last chapters of this work include a description of the process of designing the test set, realization of the designed test and the last part contains evaluation of the results and answers the question if it is possible to penetrate a verification system with the use of speech synthesis.
Audio signal modelling using neural networks
Pešán, Michele ; Ištvánek, Matěj (referee) ; Miklánek, Štěpán (advisor)
Neuronové sítě vycházející z architektury WaveNet a sítě využívající rekurentní vrstvy jsou v současnosti používány jak pro syntézu lidské řeči, tak pro „black box“ modelování systémů pro úpravu akustického signálu – modulační efekty, nelineární zkreslovače apod. Úkolem studenta bude shrnout dosavadní poznatky o možnostech využití neuronových sítí při modelování akustických signálů. Student dále implementuje některý z modelů neuronových sítí v programovacím jazyce Python a využije jej pro natrénování a následnou simulaci libovolného efektu nebo systému pro úpravu akustického signálu. V rámci semestrální práce vypracujte teoretickou část práce, vytvořte zvukovou databázi pro trénování neuronové sítě a implementujte jednu ze struktur sítí pro modelování zvukového signálu. Neuronové sítě jsou v průběhu posledních let používány stále více, a to víceméně přes celé spektrum vědních oborů. Neuronové sítě založené na architektuře WaveNet a sítě využívající rekurentních vrstev se v současné době používají v celé řadě využití, zahrnující například syntézu lidské řeči, nebo napřklad při metodě "black-box" modelování akustických systémů, které upravují zvukový signál (modulačí efekty, nelineární zkreslovače, apod.). Tato akademická práce si dává za cíl poskytnout úvod do problematiky neuronových sítí, vysvětlit základní pojmy a mechanismy této problematiky. Popsat využití neuronových sítí v modelování akustických systémů a využít těchto poznatků k implementaci neuronových sítí za cílem modelování libovolného efektu nebo zařízení pro úpravu zvukového signálu.
Modelling Music Waveforms Using Wavenet
Slanináková, Terézia ; Landini, Federico Nicolás (referee) ; Beneš, Karel (advisor)
This thesis focuses on exploring the possibilities of modelling music and speech with WaveNet, a deep neural network for generating raw audio waveforms. Using existing implementations, WaveNet was trained on multiple datasets and produced several audio files. Multiple experiments were carried out with various hyperparameter setups of WaveNet to find the optimal settings for the best results. Furthermore, multiple generation schemes were used, each having varying impact on the quality of generated audio. This quality was evaluated using human assessment via a questionnaire, where the musical samples were rated with a score 2-3.1818 on a 5 point scale, which is comparable to the rating of referential audio from the original WaveNet paper (3.1818).
Non-Parallel Voice Conversion
Brukner, Jan ; Plchot, Oldřich (referee) ; Černocký, Jan (advisor)
Cílem konverze hlasu (voice conversion, VC) je převést hlas zdrojového řečníka na hlas cílového řečníka. Technika je populární je u vtipných internetových videí, ale má také řadu seriózních využití, jako je dabování audiovizuálního materiálu a anonymizace hlasu (například pro ochranu svědků). Vzhledem k tomu, že může sloužit pro spoofing systémů identifikace hlasu, je také důležitým nástrojem pro vývoj detektorů spoofingu a protiopatření.    Modely VC byly dříve trénovány převážně na paralelních (tj. dva řečníci čtou stejný text) a na vysoce kvalitních audio materiálech. Cílem této práce bylo prozkoumat vývoj VC na neparalelních datech a na signálech nízké kvality, zejména z veřejně dostupné databáze VoxCeleb. Práce vychází z moderní architektury AutoVC definované Qianem et al. Je založena na neurálních autoenkodérech, jejichž cílem je oddělit informace o obsahu a řečníkovi do samostatných nízkodimenzionýálních vektorových reprezentací (embeddingů). Cílová řeč se potom získá nahrazením embeddingu zdrojového řečníka embeddingem cílového řečníka. Qianova architektura byla vylepšena pro zpracování audio nízké kvality experimentováním s různými embeddingy řečníků (d-vektory vs. x-vektory), zavedením klasifikátoru řečníka z obsahových embeddingů v adversariálním schématu trénování neuronových sítí a laděním velikosti obsahového embeddingu tak, že jsme definovali informační bottle-neck v příslušné neuronové síti. Definovali jsme také další adversariální architekturu, která porovnává původní obsahové embeddingy s embeddingy získanými ze zkonvertované řeči. Výsledky experimentů prokazují, že neparalelní VC na nekvalitních datech je skutečně možná. Výsledná audia nebyla tak kvalitní případě hi fi vstupů, ale výsledky ověření řečníků po spoofingu výsledným systémem jasně ukázaly posun hlasových charakteristik směrem k cílovým řečníkům.
Audio signal modelling using neural networks
Pešán, Michele ; Ištvánek, Matěj (referee) ; Miklánek, Štěpán (advisor)
Neuronové sítě vycházející z architektury WaveNet a sítě využívající rekurentní vrstvy jsou v současnosti používány jak pro syntézu lidské řeči, tak pro „black box“ modelování systémů pro úpravu akustického signálu – modulační efekty, nelineární zkreslovače apod. Úkolem studenta bude shrnout dosavadní poznatky o možnostech využití neuronových sítí při modelování akustických signálů. Student dále implementuje některý z modelů neuronových sítí v programovacím jazyce Python a využije jej pro natrénování a následnou simulaci libovolného efektu nebo systému pro úpravu akustického signálu. V rámci semestrální práce vypracujte teoretickou část práce, vytvořte zvukovou databázi pro trénování neuronové sítě a implementujte jednu ze struktur sítí pro modelování zvukového signálu. Neuronové sítě jsou v průběhu posledních let používány stále více, a to víceméně přes celé spektrum vědních oborů. Neuronové sítě založené na architektuře WaveNet a sítě využívající rekurentních vrstev se v současné době používají v celé řadě využití, zahrnující například syntézu lidské řeči, nebo napřklad při metodě "black-box" modelování akustických systémů, které upravují zvukový signál (modulačí efekty, nelineární zkreslovače, apod.). Tato akademická práce si dává za cíl poskytnout úvod do problematiky neuronových sítí, vysvětlit základní pojmy a mechanismy této problematiky. Popsat využití neuronových sítí v modelování akustických systémů a využít těchto poznatků k implementaci neuronových sítí za cílem modelování libovolného efektu nebo zařízení pro úpravu zvukového signálu.
Penetration Tests of Speaker Verification System
Nguyen, QuangTrang ; Rohdin, Johan Andréas (referee) ; Plchot, Oldřich (advisor)
The aim of this bachelor thesis is to create a penetration tests of speaker verification system with the use of the speech synthesis method. This work studies methods of spoofing against automatic speaker verification system. Before designing of the test set, the system and it's components that were used in this work are described. The last chapters of this work include a description of the process of designing the test set, realization of the designed test and the last part contains evaluation of the results and answers the question if it is possible to penetrate a verification system with the use of speech synthesis.
Non-Parallel Voice Conversion
Brukner, Jan ; Plchot, Oldřich (referee) ; Černocký, Jan (advisor)
Cílem konverze hlasu (voice conversion, VC) je převést hlas zdrojového řečníka na hlas cílového řečníka. Technika je populární je u vtipných internetových videí, ale má také řadu seriózních využití, jako je dabování audiovizuálního materiálu a anonymizace hlasu (například pro ochranu svědků). Vzhledem k tomu, že může sloužit pro spoofing systémů identifikace hlasu, je také důležitým nástrojem pro vývoj detektorů spoofingu a protiopatření.    Modely VC byly dříve trénovány převážně na paralelních (tj. dva řečníci čtou stejný text) a na vysoce kvalitních audio materiálech. Cílem této práce bylo prozkoumat vývoj VC na neparalelních datech a na signálech nízké kvality, zejména z veřejně dostupné databáze VoxCeleb. Práce vychází z moderní architektury AutoVC definované Qianem et al. Je založena na neurálních autoenkodérech, jejichž cílem je oddělit informace o obsahu a řečníkovi do samostatných nízkodimenzionýálních vektorových reprezentací (embeddingů). Cílová řeč se potom získá nahrazením embeddingu zdrojového řečníka embeddingem cílového řečníka. Qianova architektura byla vylepšena pro zpracování audio nízké kvality experimentováním s různými embeddingy řečníků (d-vektory vs. x-vektory), zavedením klasifikátoru řečníka z obsahových embeddingů v adversariálním schématu trénování neuronových sítí a laděním velikosti obsahového embeddingu tak, že jsme definovali informační bottle-neck v příslušné neuronové síti. Definovali jsme také další adversariální architekturu, která porovnává původní obsahové embeddingy s embeddingy získanými ze zkonvertované řeči. Výsledky experimentů prokazují, že neparalelní VC na nekvalitních datech je skutečně možná. Výsledná audia nebyla tak kvalitní případě hi fi vstupů, ale výsledky ověření řečníků po spoofingu výsledným systémem jasně ukázaly posun hlasových charakteristik směrem k cílovým řečníkům.
Modelling Music Waveforms Using Wavenet
Slanináková, Terézia ; Landini, Federico Nicolás (referee) ; Beneš, Karel (advisor)
This thesis focuses on exploring the possibilities of modelling music and speech with WaveNet, a deep neural network for generating raw audio waveforms. Using existing implementations, WaveNet was trained on multiple datasets and produced several audio files. Multiple experiments were carried out with various hyperparameter setups of WaveNet to find the optimal settings for the best results. Furthermore, multiple generation schemes were used, each having varying impact on the quality of generated audio. This quality was evaluated using human assessment via a questionnaire, where the musical samples were rated with a score 2-3.1818 on a 5 point scale, which is comparable to the rating of referential audio from the original WaveNet paper (3.1818).

Interested in being notified about new results for this query?
Subscribe to the RSS feed.