Název:
Určování stresu z řečového signálu
Překlad názvu:
Stress recognition from speech signal
Autoři:
Staněk, Miroslav ; Přibil, Jiří (oponent) ; Tučková,, Jana (oponent) ; Sigmund, Milan (vedoucí práce) Typ dokumentu: Disertační práce
Rok:
2016
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstrakt: [eng][cze]
Předložená disertační práce se zabývá vývojem algoritmů pro detekci stresu z řečového signálu. Inovativnost této práce se vyznačuje dvěma typy analýzy řečového signálu, a to za použití samohláskových polygonů a analýzy hlasivkových pulsů. Obě tyto základní analýzy mohou sloužit k detekci stresu v řečovém signálu, což bylo dokázáno sérií provedených experimentů. Nejlepších výsledků bylo dosaženo pomocí tzv. Closing-To-Opening phase ratio příznaku v Top-To-Bottom kritériu v kombinaci s vhodným klasifikátorem. Detekce stresu založená na této analýze může být definována jako jazykově i fonémově nezávislá, což bylo rovněž dokázáno získanými výsledky, které dosahují v některých případech až 95% úspěšnosti. Všechny experimenty byly provedeny na vytvořené české databázi obsahující reálný stres, a některé experimenty byly také provedeny pro anglickou stresovou databázi SUSAS.
Presented doctoral thesis is focused on development of algorithms for psychological stress detection in speech signal. The novelty of this thesis aims on two different analysis of the speech signal- the analysis of vowel polygons and the analysis of glottal pulses. By performed experiments, the doctoral thesis uncovers the possible usage of both fundamental analyses for psychological stress detection in speech. The analysis of glottal pulses in amplitude domain according to Top-To-Bottom criterion seems to be as the most effective with the combination of properly chosen classifier, which can be defined as language and phoneme independent way to stress recognition. All experiments were performed on developed Czech real stress database and some observations were also made on English database SUSAS. The variety of possibly effective ways of stress recognition in speech leads to approach very high recognition accuracy of their combination, or of their possible usage for detection of other speaker’s state, which has to be further tested and verified by appropriate databases.
Klíčová slova:
classifiers; Closing-To-Opening phase ratio; COG shift; Digital signal processing; emotion recognition; formant; Gaussian Mixture Models; glottal flow analysis; glottal pulse; neural networks; psychological stress; Return-To-Opening phase ratio; speech signal processing; vowel polygons; analýza hlasivkových pulsů; COG posun; CTO poměr; formanty; Gaussovské smíšené modely; klasifikátory; neuronové sítě; psychologický stres; rozpoznání emocí; RTO poměr; samohláskové polygony; Zpracování digitálního signálu; zpracování řečového signálu
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/61750