National Repository of Grey Literature 127 records found  previous11 - 20nextend  jump to record: Search took 0.01 seconds. 
Voice Conversion
Brukner, Jan ; Plchot, Oldřich (referee) ; Černocký, Jan (advisor)
Thesis deals with voice converion. Method, where we want to modify speech parameters of source speaker into that of a target speaker. At the beginning of thesis is described Voice Conversion Challenge (VCC), where participants tried to build better voice conversion systems. In the next part are analysed components of baseline system used in VCC. Modifications which could improve quality of converted voice are proposed. Then is briefly described implementation if these modifications and results are analysed. In the end is part dedicated to further improvements of voice conversion.
Non-Parallel Voice Conversion
Brukner, Jan ; Plchot, Oldřich (referee) ; Černocký, Jan (advisor)
Cílem konverze hlasu (voice conversion, VC) je převést hlas zdrojového řečníka na hlas cílového řečníka. Technika je populární je u vtipných internetových videí, ale má také řadu seriózních využití, jako je dabování audiovizuálního materiálu a anonymizace hlasu (například pro ochranu svědků). Vzhledem k tomu, že může sloužit pro spoofing systémů identifikace hlasu, je také důležitým nástrojem pro vývoj detektorů spoofingu a protiopatření.    Modely VC byly dříve trénovány převážně na paralelních (tj. dva řečníci čtou stejný text) a na vysoce kvalitních audio materiálech. Cílem této práce bylo prozkoumat vývoj VC na neparalelních datech a na signálech nízké kvality, zejména z veřejně dostupné databáze VoxCeleb. Práce vychází z moderní architektury AutoVC definované Qianem et al. Je založena na neurálních autoenkodérech, jejichž cílem je oddělit informace o obsahu a řečníkovi do samostatných nízkodimenzionýálních vektorových reprezentací (embeddingů). Cílová řeč se potom získá nahrazením embeddingu zdrojového řečníka embeddingem cílového řečníka. Qianova architektura byla vylepšena pro zpracování audio nízké kvality experimentováním s různými embeddingy řečníků (d-vektory vs. x-vektory), zavedením klasifikátoru řečníka z obsahových embeddingů v adversariálním schématu trénování neuronových sítí a laděním velikosti obsahového embeddingu tak, že jsme definovali informační bottle-neck v příslušné neuronové síti. Definovali jsme také další adversariální architekturu, která porovnává původní obsahové embeddingy s embeddingy získanými ze zkonvertované řeči. Výsledky experimentů prokazují, že neparalelní VC na nekvalitních datech je skutečně možná. Výsledná audia nebyla tak kvalitní případě hi fi vstupů, ale výsledky ověření řečníků po spoofingu výsledným systémem jasně ukázaly posun hlasových charakteristik směrem k cílovým řečníkům.
AutoRapper - Automatic Alignment of Speech with a Rhythm
Poliak, Sebastián ; Glembek, Ondřej (referee) ; Černocký, Jan (advisor)
Tato práce popisuje návrh a implementaci aplikace, která automaticky převádí vstupní řeč na rap. Tento proces je založen na zarovnání řeči s rytmem, které je dosaženo pomocí rozpoznávání fonémù, slabikování a časové modifikáce řeči. Další funkce, jako je hudební podklad a vokální efekt jsou přidány za účelem přiblížení se ke skutečnému rapu. Výsledná aplikace je dostupná jako webová služba pro uživatele.
Analysis of Interview Audio
Polok, Alexander ; Plchot, Oldřich (referee) ; Matějka, Pavel (advisor)
The aim of this thesis is the analysis of psychotherapeutic sessions. Classifiers describing the therapy are extracted from the audio recordings. These are then aggregated, compared with other sessions, and graphically presented in a report summarizing the conversation. In this way, therapists are provided with feedback that can serve for professional growth and better psychotherapy in the future.
De-identification of speakers with hypokinetic dysarthria
Kárník, Radoslav ; Kiska, Tomáš (referee) ; Mekyska, Jiří (advisor)
This paper discuses design and implementation of a system that performs de-identification of speech recordings of patients suffering from Parkinson's disease. The paper describes causes and symptoms of Parkinson's disease and effects of hypokinetic dysarthria on speech. Part of the paper is devoted to speech features that can be used for diagnosing hypokinetic dysarthria from speech. It also describes ways of speech de-identification and system for evaluating results using recognition of speakers and patients. De-identification system uses vocal tract length normalization (VTLN) and evaluating system uses Gaussian mixture models (GMM). PARCZ database was used for testing. It contains recordings of speech of patients affected by Parkinson's disease and control speakers.
Cluster analysis in the field of pathological speech signal processing
Čapek, Karel ; Mžourek, Zdeněk (referee) ; Galáž, Zoltán (advisor)
The bachelor thesis deals with the calculation of speech features that quantifies the degradation of speech production caused by the presence of certain speech pathology and the subsequent clasification of considered speech pathologies into several groups using the k-means algorithm. The purpose was to find the groups of pathologies that in spite of possible differences in the origin do affect phonation and articulation skills of the speakers and damage the quality of speech. The work uses the phonation of vowels "a" speech task as the most commonly used speech task in the field of pathological speech processing, because of its resistance to demographic and linguistic characteristics of the speakers. Furthermore, the preliminary analysis was applied to the featuresin order to select the features to best characterize the degradation of speech production. Finally, the selected features were used to find the resulting groups of pathologies using k-means algorithm.
Estimation of formant frequencies using machine learning
Káčerová, Erika ; Galáž, Zoltán (referee) ; Mekyska, Jiří (advisor)
This Master's thesis deals with the issue of formant extraction. A system of scripts in Matlab interface is created to generate values of the first three formant frequencies from speech recordings with the use of Praat and Snack(WaveSurfer). Mel Frequency Cepstral Coefficients and Linear Predictive Coefficients are extracted from the audio files in order to be added to the database. This database is then used to train a neural network. Finally, the designed neural network is tested.
Codec Detection from Speech
Jon, Josef ; Matějka, Pavel (referee) ; Černocký, Jan (advisor)
Tato práce se zabývá detekcí kodeků z komprimovaného řečového signálu. Cílem bylo zjistit, jaké charakteristiky rozlišují jednotlivé kodeky a následně vytvořit prostředí vhodné pro experimenty s různými typy a konfiguracemi klasifikátorů. Použity byly Support vector machines a především neuronové sítě, které byly vytvořeny pomocí nástroje Keras. Hlavním přínosem této práce je experimentální část, ve které je analyzován vliv různých parametrů neuronové sítě. Po nalezení nejvhodnější kombinace parametrů dosáhla síť přesnosti klasifikace přes 98% na testovací sadě obsahující data z 6 kodeků.
Mobile Applications for Real-Time Noise Removal
Siladi, František ; Skácel, Miroslav (referee) ; Novotný, Ondřej (advisor)
The goal of this bachelor's thesis is to create a mobile application which will remove  the noise from speech in real time. The first chapter describes the theory related to signal processing and described filters for denoising. The following chapter summarizes existing solutions. The third chapter contains my own design and implementation. At the end of this thesis is the evaluation of the application and evaluation from users.
Sound Creation Using VST
Švec, Michal ; Schimmel, Jiří (referee) ; Černocký, Jan (advisor)
This diploma thesis deals with digital sound synthesis. The main task was to design and implement new sound synthesizer. Created tool uses different approaches to the sound synthesis, so it can be described as a hybrid. Instrument design was inspired by existing audio synthesizers. For implementation, C++ language and VST technology from Steinberg are used. As an extension, a module, that can process voice or text input and then build a MIDI file with melody (which can be interpreted with using any synthesizer) was designed and implemented. For this module, Python language is used. For the synthesizer, a simple graphical user interface was created.

National Repository of Grey Literature : 127 records found   previous11 - 20nextend  jump to record:
Interested in being notified about new results for this query?
Subscribe to the RSS feed.