National Repository of Grey Literature 10 records found  Search took 0.01 seconds. 
Voice Conversion
Hodaň, David ; Novotný, Ondřej (referee) ; Černocký, Jan (advisor)
Voice conversion is the process of transformation of speech parameters belonging to one speaker in such a way that his/her speech sounds as spoken by someone else. This thesis presents a short summary of several techniques currently used for conversion. First, the theory of voice creation with an emphasis on key atributes that characterize and identify a speaker’s voice is described. Methods for voice modification are discussed, together with the advantages and pitfalls that predetermine the use-cases for suitable application of these methods. A high-level overview of how speech is transformed between the source and the target speakers is presented. This description is subsequently used to design a voice conversion system that is aimed to demonstrate one of the possible approaches to the conversion problem. The process of conversion consists of two phases: training and synthesis. As part of this project, a computer program for voice conversion based on the MATLAB programming environment has been developed. Its design, implementation and results are discussed.
Voice Conversion
Brukner, Jan ; Plchot, Oldřich (referee) ; Černocký, Jan (advisor)
Thesis deals with voice converion. Method, where we want to modify speech parameters of source speaker into that of a target speaker. At the beginning of thesis is described Voice Conversion Challenge (VCC), where participants tried to build better voice conversion systems. In the next part are analysed components of baseline system used in VCC. Modifications which could improve quality of converted voice are proposed. Then is briefly described implementation if these modifications and results are analysed. In the end is part dedicated to further improvements of voice conversion.
Voice Conversion
Lukáč, Peter ; Glembek, Ondřej (referee) ; Černocký, Jan (advisor)
Predmetom tejto práce je konverzia hlasu. Konverzia hlasu predstavuje preberanie reči jedného rečníka, ktorého nazývame zdrojový rečník a transformovanie tejto reči na reč ktorá znie ako reč druhého rečníka, ktorého nazývame cieľový rečník. Toto je dosiahnuté pomocou systému pre konverziu hlasu, ktorý je popísaný v tejto práci. Ako framework pre analýzu a syntézu reči používame STRAIGHT, ktorý bol dominantne používaný vo Voice Conversion Challenge 2016. Náš system pre konverziu hlasu je založený na konverzii spectra použitím doprednej neurónovej siete a paralelného trénovania.
Non-Parallel Voice Conversion
Brukner, Jan ; Plchot, Oldřich (referee) ; Černocký, Jan (advisor)
Cílem konverze hlasu (voice conversion, VC) je převést hlas zdrojového řečníka na hlas cílového řečníka. Technika je populární je u vtipných internetových videí, ale má také řadu seriózních využití, jako je dabování audiovizuálního materiálu a anonymizace hlasu (například pro ochranu svědků). Vzhledem k tomu, že může sloužit pro spoofing systémů identifikace hlasu, je také důležitým nástrojem pro vývoj detektorů spoofingu a protiopatření.    Modely VC byly dříve trénovány převážně na paralelních (tj. dva řečníci čtou stejný text) a na vysoce kvalitních audio materiálech. Cílem této práce bylo prozkoumat vývoj VC na neparalelních datech a na signálech nízké kvality, zejména z veřejně dostupné databáze VoxCeleb. Práce vychází z moderní architektury AutoVC definované Qianem et al. Je založena na neurálních autoenkodérech, jejichž cílem je oddělit informace o obsahu a řečníkovi do samostatných nízkodimenzionýálních vektorových reprezentací (embeddingů). Cílová řeč se potom získá nahrazením embeddingu zdrojového řečníka embeddingem cílového řečníka. Qianova architektura byla vylepšena pro zpracování audio nízké kvality experimentováním s různými embeddingy řečníků (d-vektory vs. x-vektory), zavedením klasifikátoru řečníka z obsahových embeddingů v adversariálním schématu trénování neuronových sítí a laděním velikosti obsahového embeddingu tak, že jsme definovali informační bottle-neck v příslušné neuronové síti. Definovali jsme také další adversariální architekturu, která porovnává původní obsahové embeddingy s embeddingy získanými ze zkonvertované řeči. Výsledky experimentů prokazují, že neparalelní VC na nekvalitních datech je skutečně možná. Výsledná audia nebyla tak kvalitní případě hi fi vstupů, ale výsledky ověření řečníků po spoofingu výsledným systémem jasně ukázaly posun hlasových charakteristik směrem k cílovým řečníkům.
Voice Conversion
Schwarz, Ivan ; Szőke, Igor (referee) ; Černocký, Jan (advisor)
Thesis is dedicated to the making of a system for voice conversion. To methods, which alter voice of one person in a way, that it could be possible for listener to mislead it for someone elses voice. In the first part, Harmonic plus Noise Model (HNM) is described. Signal analysis and synthesis are its main purposes. Methods of voice conversion are considered in the second part. Prosodic modifications are introduced at first and then modification of a spectral envelope is discussed (Especially aplication of conversion matrices). Dynamic Time Warping (DTW) and Linear Prediction Coding (LPC) methods are explained briefly. In last section, implementation process is described and achived results are discussed. Ways of further development are suggested in summary.
Non-Parallel Voice Conversion
Brukner, Jan ; Plchot, Oldřich (referee) ; Černocký, Jan (advisor)
Cílem konverze hlasu (voice conversion, VC) je převést hlas zdrojového řečníka na hlas cílového řečníka. Technika je populární je u vtipných internetových videí, ale má také řadu seriózních využití, jako je dabování audiovizuálního materiálu a anonymizace hlasu (například pro ochranu svědků). Vzhledem k tomu, že může sloužit pro spoofing systémů identifikace hlasu, je také důležitým nástrojem pro vývoj detektorů spoofingu a protiopatření.    Modely VC byly dříve trénovány převážně na paralelních (tj. dva řečníci čtou stejný text) a na vysoce kvalitních audio materiálech. Cílem této práce bylo prozkoumat vývoj VC na neparalelních datech a na signálech nízké kvality, zejména z veřejně dostupné databáze VoxCeleb. Práce vychází z moderní architektury AutoVC definované Qianem et al. Je založena na neurálních autoenkodérech, jejichž cílem je oddělit informace o obsahu a řečníkovi do samostatných nízkodimenzionýálních vektorových reprezentací (embeddingů). Cílová řeč se potom získá nahrazením embeddingu zdrojového řečníka embeddingem cílového řečníka. Qianova architektura byla vylepšena pro zpracování audio nízké kvality experimentováním s různými embeddingy řečníků (d-vektory vs. x-vektory), zavedením klasifikátoru řečníka z obsahových embeddingů v adversariálním schématu trénování neuronových sítí a laděním velikosti obsahového embeddingu tak, že jsme definovali informační bottle-neck v příslušné neuronové síti. Definovali jsme také další adversariální architekturu, která porovnává původní obsahové embeddingy s embeddingy získanými ze zkonvertované řeči. Výsledky experimentů prokazují, že neparalelní VC na nekvalitních datech je skutečně možná. Výsledná audia nebyla tak kvalitní případě hi fi vstupů, ale výsledky ověření řečníků po spoofingu výsledným systémem jasně ukázaly posun hlasových charakteristik směrem k cílovým řečníkům.
Voice Conversion
Lukáč, Peter ; Glembek, Ondřej (referee) ; Černocký, Jan (advisor)
Predmetom tejto práce je konverzia hlasu. Konverzia hlasu predstavuje preberanie reči jedného rečníka, ktorého nazývame zdrojový rečník a transformovanie tejto reči na reč ktorá znie ako reč druhého rečníka, ktorého nazývame cieľový rečník. Toto je dosiahnuté pomocou systému pre konverziu hlasu, ktorý je popísaný v tejto práci. Ako framework pre analýzu a syntézu reči používame STRAIGHT, ktorý bol dominantne používaný vo Voice Conversion Challenge 2016. Náš system pre konverziu hlasu je založený na konverzii spectra použitím doprednej neurónovej siete a paralelného trénovania.
Voice Conversion
Brukner, Jan ; Plchot, Oldřich (referee) ; Černocký, Jan (advisor)
Thesis deals with voice converion. Method, where we want to modify speech parameters of source speaker into that of a target speaker. At the beginning of thesis is described Voice Conversion Challenge (VCC), where participants tried to build better voice conversion systems. In the next part are analysed components of baseline system used in VCC. Modifications which could improve quality of converted voice are proposed. Then is briefly described implementation if these modifications and results are analysed. In the end is part dedicated to further improvements of voice conversion.
Voice Conversion
Hodaň, David ; Novotný, Ondřej (referee) ; Černocký, Jan (advisor)
Voice conversion is the process of transformation of speech parameters belonging to one speaker in such a way that his/her speech sounds as spoken by someone else. This thesis presents a short summary of several techniques currently used for conversion. First, the theory of voice creation with an emphasis on key atributes that characterize and identify a speaker’s voice is described. Methods for voice modification are discussed, together with the advantages and pitfalls that predetermine the use-cases for suitable application of these methods. A high-level overview of how speech is transformed between the source and the target speakers is presented. This description is subsequently used to design a voice conversion system that is aimed to demonstrate one of the possible approaches to the conversion problem. The process of conversion consists of two phases: training and synthesis. As part of this project, a computer program for voice conversion based on the MATLAB programming environment has been developed. Its design, implementation and results are discussed.
Voice Conversion
Schwarz, Ivan ; Szőke, Igor (referee) ; Černocký, Jan (advisor)
Thesis is dedicated to the making of a system for voice conversion. To methods, which alter voice of one person in a way, that it could be possible for listener to mislead it for someone elses voice. In the first part, Harmonic plus Noise Model (HNM) is described. Signal analysis and synthesis are its main purposes. Methods of voice conversion are considered in the second part. Prosodic modifications are introduced at first and then modification of a spectral envelope is discussed (Especially aplication of conversion matrices). Dynamic Time Warping (DTW) and Linear Prediction Coding (LPC) methods are explained briefly. In last section, implementation process is described and achived results are discussed. Ways of further development are suggested in summary.

Interested in being notified about new results for this query?
Subscribe to the RSS feed.