Národní úložiště šedé literatury Nalezeno 24 záznamů.  1 - 10dalšíkonec  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Emotion Recognition from Acted and Spontaneous Speech
Atassi, Hicham ; Přibil, Jiří (oponent) ; Zahradník, Pavel (oponent) ; Smékal, Zdeněk (vedoucí práce)
Doctoral thesis deals with emotion recognition from speech signals. The thesis is divided into two main parts; the first part describes proposed approaches for emotion recognition using two different multilingual databases of acted emotional speech. The main contributions of this part are detailed analysis of a big set of acoustic features, new classification schemes for vocal emotion recognition such as “emotion coupling” and new method for mapping discrete emotions into two-dimensional space. The second part of this thesis is devoted to emotion recognition using multilingual databases of spontaneous emotional speech, which is based on telephone records obtained from real call centers. The knowledge gained from experiments with emotion recognition from acted speech was exploited to design a new approach for classifying seven emotional states. The core of the proposed approach is a complex classification architecture based on the fusion of different systems. The thesis also examines the influence of speaker’s emotional state on gender recognition performance and proposes system for automatic identification of successful phone calls in call center by means of dialogue features.
Estimation of Fundamental Speech Frequency
Ráček, Tomáš ; Vlach, Jan (oponent) ; Vondra, Martin (vedoucí práce)
The Bachelor thesis focuses on algorithms with respect to estimation of fundamental speech frequency. First part is introduce to the questions of speech signals and the thesis at this point gives a clue what the core is going to be about. In the second part the nature of speech signal is explained, as well as the process of it’s creation by a person and models for speech generation. In the chapter 3 processing of acoustic signals are described, where pre-processing, segmentation and application of Hamming window on the same acoustic speech signal are included. The next chapter reports on pitch speech frequency signal as a physical magnitude and it's derivation from the pitch period. Furthermore describes, fundamental frequency creation in speech organs, scale range for different people, properties that carries and finally possibilities of it’s usage. Chapter 5 deals with essential principles defining pitch speech frequency in time, frequency and cepstral domain. Chapter 6 contains description of principles, used in situations, where the speech signal is devalued by noise. In the next chapter author describes design and implementation of selected principle. Furthermore, author presents results that have been achieved with this specific principle and compares them to the results of ordinary autocorrelation principle. The final chapter summarises the thesis and discusses about possible further part, extension or improvement of the algorithm.
Assessment of speech signal quality
Tuleja, Peter ; Balík, Miroslav (oponent) ; Míča, Ivan (vedoucí práce)
This paper discusses methods for evaluating the quality of the speech signal. Briefly describe the subjective methods for determining the quality of the speech signal. From subjective methods the pair-wise comparison and MOS score are presented. Objective intrusive methods are described in more detailed way - namely methods of the segmental SNR evaluated in time domain, method of the segmental SNR evaluated in the frequency domain and frame normalization method which uses LSE based estimator. At the end of this paper is described an experiment, in which the aforementioned methods are compared and than statistically evaluated.
Room Impulse Response Estimation from Speech Signal
Gregor, Adam ; Szőke, Igor (oponent) ; Černocký, Jan (vedoucí práce)
When travelling in a room, any sound is distorted by a room impulse response (RIR). Determining RIR has always been an important task in acoustics, but nowadays, it is even more important, as RIR can be used to augment data for training automatic speech recognition (ASR) systems. Classically, a RIR is estimated from a pair of clean and reverberated sound signals. This is however not practical for real scenarios (such as personal assistants, smart homes, etc.), as the clean signal is not available. The aim of the bachelor thesis is to investigate ''blind'' RIR estimation only from a reverberated speech signal. We have used the BUT ReverbDB data set and first, re-implemented techniques for classical clean-reverberated signals estimation of RIRs. Then, we investigated two techniques for RIR estimation only from a reverberated signal. The first technique uses reverberated impulse-like phonemes in speech which are expected to resemble RIR. Averaging and deconvolution of these phonemes were tested to improve the quality and robustness of the estimation. The second technique makes use of a regression neural networks trained to produce the RIR from a speech input. Although none of the techniques reaches the quality of classical measurement, the estimated RIRs have the potential to help in augmenting data for ASR system training.
Jednoduchý textově nezávislý hlasový zámek - Softwarový systém pro verifikaci mluvčích
Kotulek, Milan ; Dolenský,, Jan (oponent) ; Staněk, Miroslav (vedoucí práce)
V této diplomové práci jsou představeny různé formy biometriky a následně řešena problematika verifikace osob prostřednictvím hlasu. Nejprve je provedena analýza nahrávek řeči, vyhledání samohláskových úseků, ze kterých jsou následně získány spektrální charakteristiky pro jednotlivé samohlásky a mluvčí. Výsledkem této práce je vytvořená aplikace, disponující grafickým uživatelským prostředím, pro rozpoznání konkrétních mluvčí rozhodující se na základě získaných charakteristik z vytvořené databáze mluvčích. Vytvořená aplikace byla otestována, a dosažená úspěšnost korektního rozpoznání nabývá hodnoty přibližně 54 % pro krátké testovací nahrávky, a cca 88 % pro dlouhé záznamy řeči.
Aplikace statistické analýzy řeči pacientů s Parkinsonovou nemocí
Bijota, Jan ; Mžourek, Zdeněk (oponent) ; Galáž, Zoltán (vedoucí práce)
Tato diplomová práce se zabývá zpracováním řečového signálu osob postižených Parkinsonovou nemocí za účelem vytvoření statistického vzorku řečových parametrů, pomocí něhož bude možno rozdělit zkoumané osoby na parkinsoniky a neparkinsoniky. Tento statistický vzorek je tvořen na základě detekce hypokinetické dysartrie u osob postižených Parkinsonovou nemocí. V práci je rozebíráno předzpracování řečového signálu pomocí metody ustřednění a preemfáze a jeho rozdělení na části (segmentace). Následně je popsáno parametrické vyjádření zpracovávaného vzorku pomocí fonačních parametrů, MFCC a PLP koeficientů. Dále jsou rozebírány možnosti statistické analýzy pomocí zmíněného parametrického vyjádření. V přípádě této práce statistická analýza sestává z výpočtu Pearsonova a Spearmanova korelačního koeficientu, vzájemné informace a parametrického Studentova t-testu a neparametrického Mann-Whitneyova U testu. Výsledkem práce je soubor řečových parametrů pro jednotlivé dlouhé české samohlásky, které dokáží dle provedené statistické analýzy nejlépe vyjádřit rozdíl mezi zdravým řečníkem a parkinsonikem. Tyto výsledky mohou napomoci při diagnóze osoby, u níž je podezření na Parkisonovu nemoc.
Identifikace pauz v rušeném řečovém signálu
Podloucká, Lenka ; Balík, Miroslav (oponent) ; Smékal, Zdeněk (vedoucí práce)
Tato diplomová práce se zabývá identifikací pauz v rušeném řečovém signálu. Je zde popsán charakter řečového signálu a koncepce jeho zpracování. Cílem diplomové práce bylo navrhnout metodu spolehlivého určení úseků bez řečové aktivity (pauz) jak pro řeč bez přítomnosti šumu a rušení, tak i ze směsi řeči a nežádoucího rušení. Pro identifikaci pauz bylo realizováno pět detektorů v programovém prostředí MATLAB. V časové oblasti to byl energetický detektor, ve spektrální oblasti dvoukrokový detektor využívající v prvním kroku energetické vlastnosti signálu, ve druhém výpočtu statistických veličin. V kepstrální oblasti byly realizovány tři detektory, dva s využitím integrálního algoritmu a detekce třetího byla založena na diferenciálním algoritmu. Robustnost detektorů byla testována pro různé typy rušení a jejich úrovně odstupu signálu od šumu (Signal to Noise Ratio – SNR). Pro vyhodnocení úspěšnosti detekce byly sestaveny ROC křivky, ve kterých byl měnícím se parametrem rušivý signál.
Vytvoření webové aplikace pro objektivní analýzu hypokinetické dysartrie ve frameworku Django
Čapek, Karel ; Zvončák, Vojtěch (oponent) ; Galáž, Zoltán (vedoucí práce)
Tato diplomová práce se zabývá výpočtem parametrů, ktéré by byly schopny rozlišit zdravou řeč a řeč postiženou hypokinetickou dysartrií. Byla zde nastudována hypokynetická dysatrie, což je motorická porucha řečového a hlasového ústrojí. Byly nastudovány metody zpracování řečového signálu. Dále byly nastudovány parametry, které by mohly dobře rozlišovat zdravou a nemocnou řeč. Následně byly tyto parametry naprogramovány v programovacím jazyce Python. Dalším krokem bylo vytvoření webové aplikace ve frameworku Django, která slouží pro analýzu dyzartické řeči.
Softwarový analyzátor a dolaďovač záznamenaného vokálu
Smatana, Tomáš ; Dolenský,, Jan (oponent) ; Staněk, Miroslav (vedoucí práce)
Tato práce se zabývá rozborem metod používaných pro detekování základního kmitočtu a metod pro změnu základního kmitočtu zvukového signálu s vokálem. Je zde také rozebrána obecná teorie o hudební intonaci. Na základě tohoto rozboru jsou vybrány vhodné metody následně použité při realizaci softwaru sloužícímu k dolaďování zvukového signálu s vokálem.
Calculation of speech rate
Galáž, Zoltán ; Smékal, Zdeněk (oponent) ; Mekyska, Jiří (vedoucí práce)
his semestral thesis deals with a design of system for calculating the rate of speech. The sys-tem consists of several block, such as signal pre-processing block and its segmentation into smaller parts, block of the feature calculation, block of the feature vector quantization and finally block calculating the actual rate. The first step is a change of the input speech signal into a form suitable for the feature extraction. In next step these features are assigned to the calculated centroids. The change of centroid means change of phonemes. The system will record the following boundaries of fonems contained in speech and calculates its rate.

Národní úložiště šedé literatury : Nalezeno 24 záznamů.   1 - 10dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.