Národní úložiště šedé literatury Nalezeno 6 záznamů.  Hledání trvalo 0.01 vteřin. 
Speaker Recognition Based on Long Temporal Context
Fér, Radek ; Matějka, Pavel (oponent) ; Černocký, Jan (vedoucí práce)
This work deals with temporal features for automated speaker recognition. We give overview of currently known temporal feature extraction methods and afterwards, we propose and preliminarily evaluate a general phoneme-level temporal feature extraction scheme based on factor analysis i-vector paradigm. Much effort has been made to reasonably represent temporal context and make speaker recognition systems more robust, namely speech prosody modeling. Our approach does not explicitly model any temporal parameters of speech, rather it uses the occurrence of neighboring frames as a source of temporal information. We test and analyze this method on standard evaluation database NIST SRE 2008. The results indicate, however, that for speaker recognition, no useful gain can be obtained using this technique. We describe and discuss this discovery at the end.
Grafické a video příznaky v rozpoznávání mluvčího
Fér, Radek ; Matějka, Pavel (oponent) ; Černocký, Jan (vedoucí práce)
Tato práce popisuje netradiční metodu rozpoznávání řečníka pomocí příznaků a alogoritmů používaných převážně v počítačovém vidění. V úvodu jsou shrnuty potřebné teoretické znalosti z oblasti počítačového rozpoznávání. Jako aplikace grafických příznaků v rozpoznávání řečníka jsou detailněji popsány již známé BBF příznaky. Tyto jsou vyhodnoceny nad standardními řečovými databázemi TIMIT a NIST SRE 2010. Experimentální výsledky jsou shrnuty a porovnány se standardními metodami. V závěru jsou jsou navrženy možné směry budoucí práce.
Odhad emocí řečníka z mluvené řeči
Popková, Anna ; Fér, Radek (oponent) ; Matějka, Pavel (vedoucí práce)
Tato bakalářská práce se zabývá výzkumem v oblasti rozpoznávání emocí z řeči a okrajově i z dalších modalit (video a fyziologické záznamy). Popisuje topologii systémů, které byly pro tento výzkum postaveny. Dále popisuje experimenty s těmito systémy vedoucí k optimálnímu předzpracování, trénování a po-zpracování dat. K výzkumu jsou použita data z evaluace AV+EC 2015, do níž byly zaslány výsledky fúzních systému produkujících nejpřesnější predikci. Nově jsou v oblasti rozpoznávání emocí z řeči vyzkoušeny Bottle-Neck příznaky. Jsou použity spolu s běžně používanými eGeMAPS příznaky ve fúzním systému rozpoznávající emoční dimenzi arousal. Emoční dimenze valence je pak rozpoznávána dvojicí video příznaků. Multi-task systém (rozpoznávající valenci i arousal) používající Bottle-Neck příznaky produkuje výslekdy pouze o 13 % relativně horší, než zmíněný fúzní systém, což apeluje hlavně na situace, kde jsou dostupná pouze audio data.
Odhad emocí řečníka z mluvené řeči
Popková, Anna ; Fér, Radek (oponent) ; Matějka, Pavel (vedoucí práce)
Tato bakalářská práce se zabývá výzkumem v oblasti rozpoznávání emocí z řeči a okrajově i z dalších modalit (video a fyziologické záznamy). Popisuje topologii systémů, které byly pro tento výzkum postaveny. Dále popisuje experimenty s těmito systémy vedoucí k optimálnímu předzpracování, trénování a po-zpracování dat. K výzkumu jsou použita data z evaluace AV+EC 2015, do níž byly zaslány výsledky fúzních systému produkujících nejpřesnější predikci. Nově jsou v oblasti rozpoznávání emocí z řeči vyzkoušeny Bottle-Neck příznaky. Jsou použity spolu s běžně používanými eGeMAPS příznaky ve fúzním systému rozpoznávající emoční dimenzi arousal. Emoční dimenze valence je pak rozpoznávána dvojicí video příznaků. Multi-task systém (rozpoznávající valenci i arousal) používající Bottle-Neck příznaky produkuje výslekdy pouze o 13 % relativně horší, než zmíněný fúzní systém, což apeluje hlavně na situace, kde jsou dostupná pouze audio data.
Grafické a video příznaky v rozpoznávání mluvčího
Fér, Radek ; Matějka, Pavel (oponent) ; Černocký, Jan (vedoucí práce)
Tato práce popisuje netradiční metodu rozpoznávání řečníka pomocí příznaků a alogoritmů používaných převážně v počítačovém vidění. V úvodu jsou shrnuty potřebné teoretické znalosti z oblasti počítačového rozpoznávání. Jako aplikace grafických příznaků v rozpoznávání řečníka jsou detailněji popsány již známé BBF příznaky. Tyto jsou vyhodnoceny nad standardními řečovými databázemi TIMIT a NIST SRE 2010. Experimentální výsledky jsou shrnuty a porovnány se standardními metodami. V závěru jsou jsou navrženy možné směry budoucí práce.
Speaker Recognition Based on Long Temporal Context
Fér, Radek ; Matějka, Pavel (oponent) ; Černocký, Jan (vedoucí práce)
This work deals with temporal features for automated speaker recognition. We give overview of currently known temporal feature extraction methods and afterwards, we propose and preliminarily evaluate a general phoneme-level temporal feature extraction scheme based on factor analysis i-vector paradigm. Much effort has been made to reasonably represent temporal context and make speaker recognition systems more robust, namely speech prosody modeling. Our approach does not explicitly model any temporal parameters of speech, rather it uses the occurrence of neighboring frames as a source of temporal information. We test and analyze this method on standard evaluation database NIST SRE 2008. The results indicate, however, that for speaker recognition, no useful gain can be obtained using this technique. We describe and discuss this discovery at the end.

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.