Original title:
Modelování dynamiky prosodie pro rozpoznávání řečníka
Translated title:
Modelling Prosodic Dynamics for Speaker Recognition
Authors:
Jančík, Zdeněk ; Fapšo, Michal (referee) ; Matějka, Pavel (advisor) Document type: Master’s theses
Year:
2008
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
V současných systémech pro rozpoznání mluvčího se zpravidla využívají krátkodobé akustické příznaky. Jiné příznaky se používají jen zřídka. V práci se zaměřím na prosodické příznaky získané z průběhu základního tónu a energie. Tyto příznaky modelují průběh základního tónu v jednotlivých fonémech nebo slabikách. Z literatury je známo, že systémy založené na prosodii neposkytují tak dobré výsledky jako akustické, ale spojením akustického systému a systému založeného na prosodii se dosáhne značného zlepšení výsledků. To ověřím spojením s akustickým systémem vyvinutým na VUT. Při experimentech použiji data z evaluací pořádaných Národním úřadem pro standardy a technologie (NIST).
Most current automatic speaker recognition system extract speaker-depend features by looking at short-term spectral information. This approach ignores long-term information. I explored approach that use the fundamental frequency and energy trajectories for each speaker. This approach models prosody dynamics on single fonemes or syllables. It is known from literature that prosodic systems do not work as well the acoustic one but it improve the system when fusing. I verified this assumption by fusing my results with state of the art acoustic system from BUT. Data from standard evaluation campaigns organized by National Institute of Standarts and Technology are used for all experiments.
Keywords:
bigram; energy; language model; n-gram; pitch; prosody; speaker identification; speaker recognition; speaker validation; bigram; energie; identifikace mluvčího; jazykový model; n-gram; ověření mluvčího; prosodie; rozpoznání mluvčího; základní tón
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/53172