Original title:
Rozpoznávání emočních stavů na základě analýzy řečového signálu
Translated title:
Emotional State Recognition Based on Speech Signal Analysis
Authors:
Čermák, Jan ; Atassi, Hicham (referee) ; Smékal, Zdeněk (advisor) Document type: Master’s theses
Year:
2009
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií Abstract:
[cze][eng]
Obsah této práce je zaměřen na klasifikaci emočních stavů s použitím neuronových sítí a klasifikátoru na bázi směsi Gaussových hustotních funkcí s využitím programu Matlab. Pojednává o problematice zpracování řečového signálu, z něhož byly extrahovány prozodické, spektrální příznaky a MFCC koeficienty. Práce se zabývá určením kvality jednotlivých příznaků a výběrem nejvhodnějších pro správnou klasifikaci emočních stavů. Pro určení emočních stavů byly použity dvě rozdílné metody. První metodou jsou neuronové sítě s různě zvolenými parametry. Druhou metodou klasifikace je použití smíšených Gaussových modelů tzv. GMM. U obou metod byla pro klasifikaci rozdělena databáze emočních promluv na trénovací a testovací skupinu. Při testování byla využita metoda nezávislá na mluvčím. Součástí práce je porovnání jednotlivých analyzovaných postupů, zobrazení a porovnání výsledků. Závěrem práce je návrh nejvhodnějších parametrů a klasifikátoru pro rozpoznání emočního stavu mluvčího.
The thesis is focused on the emotional states classification in the Matlab program, using neural networks and the classifier which is based on a combination of Gaussian density functions. It deals with the speech signal processing; the prosodic and spectral signs and the MFCC coefficients were extracted from the signal. The work also deals with the quality evaluation of individual signs of which the most suitable were chosen in order to provide the correct classification of emotional states. In order to identify the emotional states, two different methods were used. The first method of classification was the use of neural networks with differently selected parameters, and the second method was the use of the Gaussian mixture model (GMM). In both methods, a database of emotional utterances was divided into the training group and the test group. The testing was based on a method independent of the speaker. The work also includes the comparison of individual analyzed methods as well as the representation and comparison of the results. The conclusion comprises a proposition for the best parameters and the best classifier for the recognition of the speaker’s emotional state.
Keywords:
classification of emotional states; GMM; Matlab.; MFCC coefficients; neural network; prosodic signs; prosody; spectral signs; test group; training group; GMM; klasifikace emočních stavů; Matlab.; MFCC koeficienty; neuronová síť; prozodie; příznaky; testovací skupina; trénovací skupina
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/10954