Název:
Odhad emocí řečníka z mluvené řeči
Překlad názvu:
Emotion Detection from Speech
Autoři:
Popková, Anna ; Fér, Radek (oponent) ; Matějka, Pavel (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2016
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Tato bakalářská práce se zabývá výzkumem v oblasti rozpoznávání emocí z řeči a okrajově i z dalších modalit (video a fyziologické záznamy). Popisuje topologii systémů, které byly pro tento výzkum postaveny. Dále popisuje experimenty s těmito systémy vedoucí k optimálnímu předzpracování, trénování a po-zpracování dat. K výzkumu jsou použita data z evaluace AV+EC 2015, do níž byly zaslány výsledky fúzních systému produkujících nejpřesnější predikci. Nově jsou v oblasti rozpoznávání emocí z řeči vyzkoušeny Bottle-Neck příznaky. Jsou použity spolu s běžně používanými eGeMAPS příznaky ve fúzním systému rozpoznávající emoční dimenzi arousal. Emoční dimenze valence je pak rozpoznávána dvojicí video příznaků. Multi-task systém (rozpoznávající valenci i arousal) používající Bottle-Neck příznaky produkuje výslekdy pouze o 13 % relativně horší, než zmíněný fúzní systém, což apeluje hlavně na situace, kde jsou dostupná pouze audio data.
This Bachelor Thesis deals with research in the field of emotion recognition mainly from speech and marginally from other modalities (video and physiological data). It closely describes the topology of the systems built specifically for the subject of this work. Moreover, it describes experiments leading to optimized pre-processing, regressor training and post-processing. Data used for these research origins from evaluation AV+EC 2015. Results of fusion systems producing the most precise prediction were sent to this evaluation. The Bottle-Neck features are newly tested and combined favorably with commonly used eGeMAPS features for the recognition of arousal. For valence, two kinds of video features are used. Muli-task system (recognizing both valence and arousal) using Bottle-Neck features produces competitive results and is only 13 % relatively behind the mentioned fusion system. This is especially appealing for applications where only audio is available.
Klíčová slova:
audio; Bottle-Neck příznaky.; Detekce emocí; fúze; kontext; Bottle-Neck features.; context; Emotion recognition; fusion; speech
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/62251