Název:
Speaker Recognition Based on Long Temporal Context
Překlad názvu:
Speaker Recognition Based on Long Temporal Context
Autoři:
Fér, Radek ; Matějka, Pavel (oponent) ; Černocký, Jan (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2014
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [eng][cze]
Tato práce se zabývá extrakcí vhodných příznaků pro rozpoznávání řečníka z delších časových úseků. Po představení současných technik pro extrakci takových příznaků navrhujeme a popisujeme novou metodu pracující v časovém rozsahu fonémů a využívající známou techniku i-vektorů. Velké úsilí bylo vynaloženo na nalezení vhodné reprezentace temporálních příznaků, díky kterým by mohly být systémy pro rozpoznávání řečníka robustnější, zejména modelování prosodie. Náš přístup nemodeluje explicitně žádné specifické temporální parametry řeči, namísto toho používá kookurenci řečových rámců jako zdroj temporálních příznaků. Tuto techniku testujeme a analyzujeme na řečové databázi NIST SRE 2008. Z výsledků bohužel vyplývá, že pro rozpoznávání řečníka tato technika nepřináší očekávané zlepšení. Tento fakt diskutujeme a analyzujeme ke konci práce.
This work deals with temporal features for automated speaker recognition. We give overview of currently known temporal feature extraction methods and afterwards, we propose and preliminarily evaluate a general phoneme-level temporal feature extraction scheme based on factor analysis i-vector paradigm. Much effort has been made to reasonably represent temporal context and make speaker recognition systems more robust, namely speech prosody modeling. Our approach does not explicitly model any temporal parameters of speech, rather it uses the occurrence of neighboring frames as a source of temporal information. We test and analyze this method on standard evaluation database NIST SRE 2008. The results indicate, however, that for speaker recognition, no useful gain can be obtained using this technique. We describe and discuss this discovery at the end.
Klíčová slova:
i-vectors; speaker recognition; speech parametrization; temporal features; i-vektory; parametrizace řeči; rozpoznávání řečníka; temporální příznaky
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/53364