Národní úložiště šedé literatury Nalezeno 94 záznamů.  předchozí11 - 20dalšíkonec  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Speaker Recognition Based on Long Temporal Context
Fér, Radek ; Matějka, Pavel (oponent) ; Černocký, Jan (vedoucí práce)
This work deals with temporal features for automated speaker recognition. We give overview of currently known temporal feature extraction methods and afterwards, we propose and preliminarily evaluate a general phoneme-level temporal feature extraction scheme based on factor analysis i-vector paradigm. Much effort has been made to reasonably represent temporal context and make speaker recognition systems more robust, namely speech prosody modeling. Our approach does not explicitly model any temporal parameters of speech, rather it uses the occurrence of neighboring frames as a source of temporal information. We test and analyze this method on standard evaluation database NIST SRE 2008. The results indicate, however, that for speaker recognition, no useful gain can be obtained using this technique. We describe and discuss this discovery at the end.
Odhad obličeje z řečového signálu
Kyjonka, Mojmír ; Matějka, Pavel (oponent) ; Plchot, Oldřich (vedoucí práce)
Tato práce se zaobírá problematikou rekonstrukce obličeje na základě hlasu. V rámci této práce je prozkoumán současný stav této problematiky a následně je natrénován model pro generování obličeje z krátké audionahrávky. Natrénovaný model vychází z práce "Reconstructing faces from voices", jenž je založen na architektuře GAN. V této práci byly použity datasety VGGFace, VoxCeleb. Pro účely bakalářské práce byl vytvořen malý audiovizuální dataset česky mluvících osob. Práce je implementovaná pomocí skriptovacího jazyka Python s využitím knihovny PyTorch.
Analýza telefonního hovoru mezi dvěma lidmi
Herceková, Monika ; Schwarz, Petr (oponent) ; Matějka, Pavel (vedoucí práce)
Tato práce se zabýva analýzou telefonního hovoru mezi dvěma lidmi. Popisuje možné projevy řeči a ticha v nahrávce a zdůvodňuje kritéria pro vyslechnutí si nahrávky. V práci je navrhnutý a implementovaný prototyp aplikace pro analýzu rozhovoru. Na závěr jsou představena možná rozšíření prototypu v budoucnosti.
Agreements and Disagreements between Automatic and Human Speaker Recognition
Valenta, Jakub ; Matějka, Pavel (oponent) ; Rohdin, Johan Andréas (vedoucí práce)
This thesis deals with the problem of speaker recognition. The term is defined and individual methods related to it are described. The aim of the work is to point out the agreements and disagreements between human and automatic speaker recognition. At the beginning of the thesis, theoretical knowledge from both mentioned areas are described, i.e., what aspects of human speech do people, or automatic system respectively, focus on. Then, several experiments are performed to compare these two methods. These experiments are evaluated in such a way, that it is possible to observe which tasks can be better solved by people, in order to use the knowledge to improve the function of the automated system. At the end of the thesis, such an attempt to improve the automatic system is demonstrated and tested. Testing was successful and higher evaluation accuracy could be observed. Thus, such a result can be used in other research to allow further development in the field of automatic speaker recognition.
Inteligentní jednací místnost ovládaná hlasem
Bauer, Jan ; Matějka, Pavel (oponent) ; Schwarz, Petr (vedoucí práce)
Hlavním cílem práce je navrhnout a implementovat systém hlasového ovládání místnosti. Pro řešení práce je použit Phonexia Speech Engine, který je produktem společnosti Phonexia. Základem pro celý systém je minipočítač Raspberry Pi. Jako implementační jazyk byl vybrán programovací jazyk Python. Výsledné řešení je určitě zajimavé a po přidání dalších funkcí by se mohlo stát inteligentním asistentem pro řízení porad.
Detekce Akustické Prostředí z Řeči
Grepl, Filip ; Beneš, Karel (oponent) ; Matějka, Pavel (vedoucí práce)
Tato práce se zabývá vytvořením systému, jehož úkolem je z audio signálu rozpoznat, na jakém místě byla vstupní nahrávka pořízena. Klasifikátor je založen na vícevrstvé hustě propojené neuronové síti. Topologie neuronové sítě vychází ze základního systému, poskytovaného k soutěži DCASE. Pro její trénování a evaluaci je využita datová sada rovněž z této soutěže. Experimenty jsou prováděny zejména s reprezentací vlastností jednotlivých audio nahrávek a formátem vstupních dat. Za tímto účelem jsou využity Mel-filter bank, blok Mel-filter bank a MFCC příznaky. Experimenty, provedené v této práci, přinesly oproti základnímu systému soutěže DCASE vyšší přesnost klasifikace o 6.5 %. Celková úspěšnost systému tak dosáhla hodnoty 67.5 %.
Textově závislé rozpoznávání mluvčího
Fux, Jan ; Glembek, Ondřej (oponent) ; Matějka, Pavel (vedoucí práce)
Cílem této bakalářské práce bylo navrhnout systém pro textově závislé rozpoznávání mluvčího. Bylo otestováno několik přístupů na databázi MIT, která obsahuje nahrávky průměrné délky 0,46s. Z otestovaných přístupů se jeví jako nejlepší kombinace systému DTW s využitím odhadu posteriorních pravděpodobností fonémů (posteriogramu) jako výstupu z Fonémového rozpoznávače, a akustického SID systému založeného na iVektorech a PLDA (Probabilistic Linear Component Analysis). Fúze těchto dvou systémů pomocí Neuronové sítě dosahuje nejlepších výsledků (EER) a to 17,84% pro ženy a 16,38% pro muže, což je relativní zlepšení 49,9% u žen a 54,2% u mužů oproti samostatnému akustickému rozpoznávání.
Automatické ukládání digitálního satelitního vysílání
Řezníček, Ivo ; Matějka, Pavel (oponent) ; Szőke, Igor (vedoucí práce)
Tato práce má za cíl vytvoření systému pro masivní nahrávání multimediálních dat. Pořizovaná data budou řečové nahrávky v co největším množství různých jazyků. Jako vhodný zdroj dat bylo zvoleno digitální satelitní vysílání (DVB-S). Tato práce se zabývá realizací systému pro správu a ukládaní řečových nahrávek v digitální podobě. Systém má následující vlastnosti: paralelní nahrávání více programů, podpora více satelitních karet, podpora více parabol (DiSEqC), zízkávání a ukládání doplňujících informací (z internetu) jako je například jazyk vysílání. Data systémem nashromážděná budou použita k trénování systému pro identifikaci jazyka.
Grafické a video příznaky v rozpoznávání mluvčího
Fér, Radek ; Matějka, Pavel (oponent) ; Černocký, Jan (vedoucí práce)
Tato práce popisuje netradiční metodu rozpoznávání řečníka pomocí příznaků a alogoritmů používaných převážně v počítačovém vidění. V úvodu jsou shrnuty potřebné teoretické znalosti z oblasti počítačového rozpoznávání. Jako aplikace grafických příznaků v rozpoznávání řečníka jsou detailněji popsány již známé BBF příznaky. Tyto jsou vyhodnoceny nad standardními řečovými databázemi TIMIT a NIST SRE 2010. Experimentální výsledky jsou shrnuty a porovnány se standardními metodami. V závěru jsou jsou navrženy možné směry budoucí práce.
Intersession Variability Compensation in Language and Speaker Identification
Hubeika, Valiantsina ; Burget, Lukáš (oponent) ; Matějka, Pavel (vedoucí práce)
Varibiality in the channel and session is an important issue in the text-independent speaker recognition task. To date, several techniques providing channel and session variability compensation were introduced in a number of scientic papers. Such implementation can be done in feature, model and score domain. Relatively new and powerful approach to remove channel distortion is so-called eigenchannel adaptation for Gaussian Mixture Models (GMM). The drawback of the technique is that it is not applicable in its original implementation to different types of classifiers, eg. Support Vector Machines (SVM), GMM with different number of Gaussians or in speech recognition task using Hidden Markov Models (HMM). The solution can be the approximation of the technique, eigenchannel adaptation in feature domain. Both, the original eigenchannel adaptation and eigenchannel adaptation on features in task of speaker recognition are presented. After achieving good results in speaker recognition, contribution of the same techniques was examined in acoustic language identification system with $14$ languages. In this task undesired factors are channel and speaker variability. Presented results are presented on the NIST Speaker Recognition Evaluation 2006 data and NIST Language Recognition Evaluation 2007 data.

Národní úložiště šedé literatury : Nalezeno 94 záznamů.   předchozí11 - 20dalšíkonec  přejít na záznam:
Viz též: podobná jména autorů
10 MATĚJKA, Petr
10 Matějka, Petr
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.