Název:
Rozpoznávání emočních stavů na základě analýzy řečového signálu
Překlad názvu:
Emotional State Recognition Based on Speech Signal Analysis
Autoři:
Čermák, Jan ; Atassi, Hicham (oponent) ; Smékal, Zdeněk (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2009
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstrakt: [cze][eng]
Obsah této práce je zaměřen na klasifikaci emočních stavů s použitím neuronových sítí a klasifikátoru na bázi směsi Gaussových hustotních funkcí s využitím programu Matlab. Pojednává o problematice zpracování řečového signálu, z něhož byly extrahovány prozodické, spektrální příznaky a MFCC koeficienty. Práce se zabývá určením kvality jednotlivých příznaků a výběrem nejvhodnějších pro správnou klasifikaci emočních stavů. Pro určení emočních stavů byly použity dvě rozdílné metody. První metodou jsou neuronové sítě s různě zvolenými parametry. Druhou metodou klasifikace je použití smíšených Gaussových modelů tzv. GMM. U obou metod byla pro klasifikaci rozdělena databáze emočních promluv na trénovací a testovací skupinu. Při testování byla využita metoda nezávislá na mluvčím. Součástí práce je porovnání jednotlivých analyzovaných postupů, zobrazení a porovnání výsledků. Závěrem práce je návrh nejvhodnějších parametrů a klasifikátoru pro rozpoznání emočního stavu mluvčího.
The thesis is focused on the emotional states classification in the Matlab program, using neural networks and the classifier which is based on a combination of Gaussian density functions. It deals with the speech signal processing; the prosodic and spectral signs and the MFCC coefficients were extracted from the signal. The work also deals with the quality evaluation of individual signs of which the most suitable were chosen in order to provide the correct classification of emotional states. In order to identify the emotional states, two different methods were used. The first method of classification was the use of neural networks with differently selected parameters, and the second method was the use of the Gaussian mixture model (GMM). In both methods, a database of emotional utterances was divided into the training group and the test group. The testing was based on a method independent of the speaker. The work also includes the comparison of individual analyzed methods as well as the representation and comparison of the results. The conclusion comprises a proposition for the best parameters and the best classifier for the recognition of the speaker’s emotional state.
Klíčová slova:
GMM; klasifikace emočních stavů; Matlab.; MFCC koeficienty; neuronová síť; prozodie; příznaky; testovací skupina; trénovací skupina; classification of emotional states; GMM; Matlab.; MFCC coefficients; neural network; prosodic signs; prosody; spectral signs; test group; training group
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/10954