Název:
Modelování dynamiky prosodie pro rozpoznávání řečníka
Překlad názvu:
Modelling Prosodic Dynamics for Speaker Recognition
Autoři:
Jančík, Zdeněk ; Fapšo, Michal (oponent) ; Matějka, Pavel (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2008
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
V současných systémech pro rozpoznání mluvčího se zpravidla využívají krátkodobé akustické příznaky. Jiné příznaky se používají jen zřídka. V práci se zaměřím na prosodické příznaky získané z průběhu základního tónu a energie. Tyto příznaky modelují průběh základního tónu v jednotlivých fonémech nebo slabikách. Z literatury je známo, že systémy založené na prosodii neposkytují tak dobré výsledky jako akustické, ale spojením akustického systému a systému založeného na prosodii se dosáhne značného zlepšení výsledků. To ověřím spojením s akustickým systémem vyvinutým na VUT. Při experimentech použiji data z evaluací pořádaných Národním úřadem pro standardy a technologie (NIST).
Most current automatic speaker recognition system extract speaker-depend features by looking at short-term spectral information. This approach ignores long-term information. I explored approach that use the fundamental frequency and energy trajectories for each speaker. This approach models prosody dynamics on single fonemes or syllables. It is known from literature that prosodic systems do not work as well the acoustic one but it improve the system when fusing. I verified this assumption by fusing my results with state of the art acoustic system from BUT. Data from standard evaluation campaigns organized by National Institute of Standarts and Technology are used for all experiments.
Klíčová slova:
bigram; energie; identifikace mluvčího; jazykový model; n-gram; ověření mluvčího; prosodie; rozpoznání mluvčího; základní tón; bigram; energy; language model; n-gram; pitch; prosody; speaker identification; speaker recognition; speaker validation
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/53172