National Repository of Grey Literature 7 records found  Search took 0.00 seconds. 
Voice Conversion
Brukner, Jan ; Plchot, Oldřich (referee) ; Černocký, Jan (advisor)
Thesis deals with voice converion. Method, where we want to modify speech parameters of source speaker into that of a target speaker. At the beginning of thesis is described Voice Conversion Challenge (VCC), where participants tried to build better voice conversion systems. In the next part are analysed components of baseline system used in VCC. Modifications which could improve quality of converted voice are proposed. Then is briefly described implementation if these modifications and results are analysed. In the end is part dedicated to further improvements of voice conversion.
Non-Parallel Voice Conversion
Brukner, Jan ; Plchot, Oldřich (referee) ; Černocký, Jan (advisor)
Cílem konverze hlasu (voice conversion, VC) je převést hlas zdrojového řečníka na hlas cílového řečníka. Technika je populární je u vtipných internetových videí, ale má také řadu seriózních využití, jako je dabování audiovizuálního materiálu a anonymizace hlasu (například pro ochranu svědků). Vzhledem k tomu, že může sloužit pro spoofing systémů identifikace hlasu, je také důležitým nástrojem pro vývoj detektorů spoofingu a protiopatření.    Modely VC byly dříve trénovány převážně na paralelních (tj. dva řečníci čtou stejný text) a na vysoce kvalitních audio materiálech. Cílem této práce bylo prozkoumat vývoj VC na neparalelních datech a na signálech nízké kvality, zejména z veřejně dostupné databáze VoxCeleb. Práce vychází z moderní architektury AutoVC definované Qianem et al. Je založena na neurálních autoenkodérech, jejichž cílem je oddělit informace o obsahu a řečníkovi do samostatných nízkodimenzionýálních vektorových reprezentací (embeddingů). Cílová řeč se potom získá nahrazením embeddingu zdrojového řečníka embeddingem cílového řečníka. Qianova architektura byla vylepšena pro zpracování audio nízké kvality experimentováním s různými embeddingy řečníků (d-vektory vs. x-vektory), zavedením klasifikátoru řečníka z obsahových embeddingů v adversariálním schématu trénování neuronových sítí a laděním velikosti obsahového embeddingu tak, že jsme definovali informační bottle-neck v příslušné neuronové síti. Definovali jsme také další adversariální architekturu, která porovnává původní obsahové embeddingy s embeddingy získanými ze zkonvertované řeči. Výsledky experimentů prokazují, že neparalelní VC na nekvalitních datech je skutečně možná. Výsledná audia nebyla tak kvalitní případě hi fi vstupů, ale výsledky ověření řečníků po spoofingu výsledným systémem jasně ukázaly posun hlasových charakteristik směrem k cílovým řečníkům.
Conversion of Whispered to Normal Voice
Gajda, Richard ; Černocký, Jan (referee) ; Brukner, Jan (advisor)
Cílem této práce je vyvinout funkční program, který konvertuje vstupní šeptanou řeč na neutrální za pomoci predikce hlasového buzení, která je získána pomocí neuronových sítí. Práce je založena na studii z Indian Institute of Science v indickém Bengalúru. Řešení je provedeno následovně: nejprve získáme trénovací dataset řečníků, poté implementujeme zpracování řeči a její parametrizaci za pomoci vokodéru WORLD, vytvoříme a natrénujeme neuronovou síť, provedeme experimenty, které vyhodnotíme, a nakonec navrhneme použití pro budoucí aplikace a vylepšení.
Text-to-Speech Personalization
Luner, Michal ; Černocký, Jan (referee) ; Brukner, Jan (advisor)
Tato práce si klade za cíl vytvořit model, který dokáže převést vstupní text na řeč cílového mluvčího. Základním stavebním kamenem je VITS model. Postup byl následující: získal se obecný český dataset, na kterém se natrénoval model neuronové sítě, jenž se poté využil pro generování audio nahrávek, které se vyhodnocovaly pomocí objektivních metrik. Následně se vytvořil personalizovaný dataset, na kterém se provedl fine-tuning modelu získaného v předchozím kroku. Opět se provedlo vyhodnocení kvality nahrávek. Výsledkem jsou dva personalizované modely. Model mužského mluvčího dosáhl v poslechových testech skóre 4.12/5 (MOS), model ženské mluvčí pak 3.02/5. Výsledky sub\-jektivních i objektivních metrik ukázaly, že postupem zvoleným v této práci je možné vyvinout model, který se svou kvalitou generovaných nahrávek blíží skutečné řeči. Přínosem této práce je, kromě personalizovaných modelů, i vytvoření vyhodnocovacího systému zpracování dat, které je možno uzpůsobit k evaluaci audio nahrávek z jiných mo\-de\-lů. Práce popisuje i způsob tvorby nového datasetu, který se může využít při tvorbě dalšího jiného datasetu v libovolném jazyce.
Conversion of Whispered to Normal Voice
Gajda, Richard ; Černocký, Jan (referee) ; Brukner, Jan (advisor)
Cílem této práce je vyvinout funkční program, který konvertuje vstupní šeptanou řeč na neutrální za pomoci predikce hlasového buzení, která je získána pomocí neuronových sítí. Práce je založena na studii z Indian Institute of Science v indickém Bengalúru. Řešení je provedeno následovně: nejprve získáme trénovací dataset řečníků, poté implementujeme zpracování řeči a její parametrizaci za pomoci vokodéru WORLD, vytvoříme a natrénujeme neuronovou síť, provedeme experimenty, které vyhodnotíme, a nakonec navrhneme použití pro budoucí aplikace a vylepšení.
Non-Parallel Voice Conversion
Brukner, Jan ; Plchot, Oldřich (referee) ; Černocký, Jan (advisor)
Cílem konverze hlasu (voice conversion, VC) je převést hlas zdrojového řečníka na hlas cílového řečníka. Technika je populární je u vtipných internetových videí, ale má také řadu seriózních využití, jako je dabování audiovizuálního materiálu a anonymizace hlasu (například pro ochranu svědků). Vzhledem k tomu, že může sloužit pro spoofing systémů identifikace hlasu, je také důležitým nástrojem pro vývoj detektorů spoofingu a protiopatření.    Modely VC byly dříve trénovány převážně na paralelních (tj. dva řečníci čtou stejný text) a na vysoce kvalitních audio materiálech. Cílem této práce bylo prozkoumat vývoj VC na neparalelních datech a na signálech nízké kvality, zejména z veřejně dostupné databáze VoxCeleb. Práce vychází z moderní architektury AutoVC definované Qianem et al. Je založena na neurálních autoenkodérech, jejichž cílem je oddělit informace o obsahu a řečníkovi do samostatných nízkodimenzionýálních vektorových reprezentací (embeddingů). Cílová řeč se potom získá nahrazením embeddingu zdrojového řečníka embeddingem cílového řečníka. Qianova architektura byla vylepšena pro zpracování audio nízké kvality experimentováním s různými embeddingy řečníků (d-vektory vs. x-vektory), zavedením klasifikátoru řečníka z obsahových embeddingů v adversariálním schématu trénování neuronových sítí a laděním velikosti obsahového embeddingu tak, že jsme definovali informační bottle-neck v příslušné neuronové síti. Definovali jsme také další adversariální architekturu, která porovnává původní obsahové embeddingy s embeddingy získanými ze zkonvertované řeči. Výsledky experimentů prokazují, že neparalelní VC na nekvalitních datech je skutečně možná. Výsledná audia nebyla tak kvalitní případě hi fi vstupů, ale výsledky ověření řečníků po spoofingu výsledným systémem jasně ukázaly posun hlasových charakteristik směrem k cílovým řečníkům.
Voice Conversion
Brukner, Jan ; Plchot, Oldřich (referee) ; Černocký, Jan (advisor)
Thesis deals with voice converion. Method, where we want to modify speech parameters of source speaker into that of a target speaker. At the beginning of thesis is described Voice Conversion Challenge (VCC), where participants tried to build better voice conversion systems. In the next part are analysed components of baseline system used in VCC. Modifications which could improve quality of converted voice are proposed. Then is briefly described implementation if these modifications and results are analysed. In the end is part dedicated to further improvements of voice conversion.

See also: similar author names
2 Brukner, Jakub
4 Brukner, Josef
Interested in being notified about new results for this query?
Subscribe to the RSS feed.