Národní úložiště šedé literatury Nalezeno 12 záznamů.  1 - 10další  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Improving Robustness of Speaker Recognition using Discriminative Techniques
Novotný, Ondřej ; Ferrer, Luciana (oponent) ; Pollák, Petr (oponent) ; Černocký, Jan (vedoucí práce)
This work deals with discriminative techniques in speaker verification systems to improve robustness of the systems against factors that negatively affect their performance. These factors include noise, reverberation, or the transmission channel. The thesis consists of two main parts. In the first part, it deals with a theoretical introduction to current state-of-the-art speaker verification systems. The recognition system's steps are described, starting from the extraction of acoustic features, the extraction of vector representations of recordings, and the final recognition score computation. Particular emphasis is paid to the techniques of extraction of a vector representation of a recording, where we describe two different paradigms: the i-vectors and the x-vectors. The second part of the work focuses more on discriminative techniques to increase robustness. Their description is organized to match the gradual passage of the recording through the verification system. First, attention is paid to signal pre-processing using a neural network for noise reduction and speech enhancement. This pre-processing is a universal technique independent of the verification system. The work follows by focusing on the use of a discriminative approach in the extraction of features and the extraction of vector representations of recordings. Furthermore, this work sheds light on the transition from generative systems to discriminative systems. In order to give a fuller context, the work also describes techniques that had historically preceded this transition. All presented techniques are always experimentally verified and their advantages evaluated. We are proposing several techniques that have proved successful in both the generative approach in the form of i-vectors and discriminative x-vectors, and thanks to them, considerable improvement has been achieved. For completeness, in the field of robustness, other techniques are included in the work, such as normalization of scores or multi-condition training. Finally, the work deals with the robustness of discriminative systems in terms of data used in their training.
Robustní rozpoznávání mluvčího
Profant, Ján ; Novotný, Ondřej (oponent) ; Matějka, Pavel (vedoucí práce)
Cílem této práce je analyzovat úspěšnost systému rozpoznávaní mluvčího na nahrávkach degradovaných různym telefonním přenosovým kanálem. Použili jsme dva způsoby extrakce příznaků - Mel Frequency Cepstral Coefficients (MFCC) a moderní systém, který spojuje Bottleneck příznaky spolu s MFCC. Systém rozpoznávání mluvčího je založen na i-vektorech a Pravděpodobnostní Lineární Diskriminační Analýze (PLDA). Porovnali jsme scenáře, kde je PLDA trénovaná jen na čisté řeči, poté systém kde jsme přidali data s hlukem a reverberací a nakonec, data degradované kodekem. Vyhodnotili jsem systémy za rovnakých podmínek (data ze stejného kodeku byli také v trénování PLDA) a také za rozdílnych podmínek (data ze stejného kodeku resp. rodiny kodeků nebyli v trénování PLDA). Také jsme experimentovali s nedávno představenou technikou na adaptaci kanálu - Within-class Covariance Correction (WCC). Můžeme jednoznačně vidět zlepšení úspěšnosti přidáním degradovaných dat do PLDA resp. WCC (s přibližně stejným výsledkem) pro obě naše testované podmínky.
Robustní rozpoznávání mluvčího pomocí neuronových sítí
Profant, Ján ; Rohdin, Johan Andréas (oponent) ; Matějka, Pavel (vedoucí práce)
Tématem této práce je analýza nejmodernějších systémů pro rozpoznávání řečníka za použití neurónových sítí (nazývaných x-vektory) v rozličných podmínkách, jako jsou širokopásmové a úzkopásmové data, který je robustní vůči neviděnému jazyku, specifickému hluku nebo telefonnimu kodeku. Automatický systém mapuje zvukovou nahrávku variabilní délky do fixně dlouhého vektoru, který je následně využit jako reprezentace řečníka. V této práci jsme porovnali systémy založené na neurónových sítich s výsledkem VUT týmu v Speakers in the Wild Speaker Recognition Challenge (SITW), který využíval donedávna velmi populární statistický model - i-vektory. Pozorovali jsme, že s nedávno publikovanými x-vektory dosahujeme 4.38 krát nižší Equal Error Rate pro SITW core-core evaluační sadu v porovnání s výsledkem z roku 2016 od VUT v SITW soutěži. Kromě toho jsme ukázali, že diarizace v nahrávkach s více mluvčími významně snižuje chybovost systému pro SITW core-multi evaluační data, ale podobný trend jsme neviděli pro dataset NIST SRE 2018 VAST.
Optimization of Gaussian Mixture Subspace Models and Related Scoring Algorithms in Speaker Verification
Glembek, Ondřej ; Brummer, Niko (oponent) ; Campbell,, William (oponent) ; Burget, Lukáš (vedoucí práce)
This thesis deals with Gaussian Mixture Subspace Modeling in automatic speaker recognition. The thesis consists of three parts.  In the first part, Joint Factor Analysis (JFA) scoring methods are studied.  The methods differ mainly in how they deal with the channel of the tested utterance.  The general JFA likelihood function is investigated and the methods are compared both in terms of accuracy and speed.  It was found that linear approximation of the log-likelihood function gives comparable results to the full log-likelihood evaluation while simplyfing the formula and dramatically reducing the computation speed. In the second part, i-vector extraction is studied and two simplification methods are proposed. The motivation for this part was to allow for using the state-of-the-art technique on small scale devices and to setup a simple discriminative-training system.  It is shown that, for long utterances, while sacrificing the accuracy, we can get very fast and compact i-vector systems. On a short-utterance(5-second) task, the results of the simplified systems are comparable to the full i-vector extraction. The third part deals with discriminative training in automatic speaker recognition.  Previous work in the field is summarized and---based on the knowledge from the earlier chapters of this work---discriminative training of the i-vector extractor parameters is proposed.  It is shown that discriminative re-training of the i-vector extractor can improve the system if the initial estimation is computed using the generative approach.
Detekce Akustického Prostředí z Řeči
Dobrotka, Matúš ; Glembek, Ondřej (oponent) ; Matějka, Pavel (vedoucí práce)
Téma tejto diplomovej práce je klasifikácia audio nahrávky do 15 tried akustických prostredí, v ktorých sa ľudia bežne nachádzajú. Práca popisuje 2 metódy založené na GMM a i-vektoroch a ich vzájomnú fúziu. Na dátach zo súťaže DCASE dosiahol najlepší GMM systém úspešnosť 60.4% a i-vektor systém 68.4%. Fúzia GMM systému a najlepšieho i-vektor systému výsledok ešte zlepšila na 69.3%, čo by v dobe súťaže stačilo na 20. miesto z 98 odovzdaných systémov z celého sveta.
Microphone Arrays for Speaker Recognition
Mošner, Ladislav ; Plchot, Oldřich (oponent) ; Černocký, Jan (vedoucí práce)
This thesis addresses the problem of remote speaker recognition. The accuracy of standard speaker recognition decreases considerably in the presence of far-field data, therefore, we devised two strategies to improve the results. First, we employed a microphone array (purposely positioned set of microphones) that is able to steer a virtual "beam" to the position of the speaker. We also performed system adaptation of different parts of the system (PLDA scoring and i-vector extraction). We have synthesized our training and test data from the standard NIST 2010 data by room simulation and we have shown that both techniques and their combination significantly improve the results. We have also dealt with joint speaker identity and position estimation. While the results in simulated outdoor environment (reverberation-free) are encouraging, the results from interiors (with reverberation) are mixed and require further investigation. Finally, we were able to test our system on a limited amount of real re-transmitted data. While the results for male speakers match the simulation, the results for females are not convincing and need further analysis.
Improving Robustness of Speaker Recognition using Discriminative Techniques
Novotný, Ondřej ; Ferrer, Luciana (oponent) ; Pollák, Petr (oponent) ; Černocký, Jan (vedoucí práce)
This work deals with discriminative techniques in speaker verification systems to improve robustness of the systems against factors that negatively affect their performance. These factors include noise, reverberation, or the transmission channel. The thesis consists of two main parts. In the first part, it deals with a theoretical introduction to current state-of-the-art speaker verification systems. The recognition system's steps are described, starting from the extraction of acoustic features, the extraction of vector representations of recordings, and the final recognition score computation. Particular emphasis is paid to the techniques of extraction of a vector representation of a recording, where we describe two different paradigms: the i-vectors and the x-vectors. The second part of the work focuses more on discriminative techniques to increase robustness. Their description is organized to match the gradual passage of the recording through the verification system. First, attention is paid to signal pre-processing using a neural network for noise reduction and speech enhancement. This pre-processing is a universal technique independent of the verification system. The work follows by focusing on the use of a discriminative approach in the extraction of features and the extraction of vector representations of recordings. Furthermore, this work sheds light on the transition from generative systems to discriminative systems. In order to give a fuller context, the work also describes techniques that had historically preceded this transition. All presented techniques are always experimentally verified and their advantages evaluated. We are proposing several techniques that have proved successful in both the generative approach in the form of i-vectors and discriminative x-vectors, and thanks to them, considerable improvement has been achieved. For completeness, in the field of robustness, other techniques are included in the work, such as normalization of scores or multi-condition training. Finally, the work deals with the robustness of discriminative systems in terms of data used in their training.
Robustní rozpoznávání mluvčího pomocí neuronových sítí
Profant, Ján ; Rohdin, Johan Andréas (oponent) ; Matějka, Pavel (vedoucí práce)
Tématem této práce je analýza nejmodernějších systémů pro rozpoznávání řečníka za použití neurónových sítí (nazývaných x-vektory) v rozličných podmínkách, jako jsou širokopásmové a úzkopásmové data, který je robustní vůči neviděnému jazyku, specifickému hluku nebo telefonnimu kodeku. Automatický systém mapuje zvukovou nahrávku variabilní délky do fixně dlouhého vektoru, který je následně využit jako reprezentace řečníka. V této práci jsme porovnali systémy založené na neurónových sítich s výsledkem VUT týmu v Speakers in the Wild Speaker Recognition Challenge (SITW), který využíval donedávna velmi populární statistický model - i-vektory. Pozorovali jsme, že s nedávno publikovanými x-vektory dosahujeme 4.38 krát nižší Equal Error Rate pro SITW core-core evaluační sadu v porovnání s výsledkem z roku 2016 od VUT v SITW soutěži. Kromě toho jsme ukázali, že diarizace v nahrávkach s více mluvčími významně snižuje chybovost systému pro SITW core-multi evaluační data, ale podobný trend jsme neviděli pro dataset NIST SRE 2018 VAST.
Detekce Akustického Prostředí z Řeči
Dobrotka, Matúš ; Glembek, Ondřej (oponent) ; Matějka, Pavel (vedoucí práce)
Téma tejto diplomovej práce je klasifikácia audio nahrávky do 15 tried akustických prostredí, v ktorých sa ľudia bežne nachádzajú. Práca popisuje 2 metódy založené na GMM a i-vektoroch a ich vzájomnú fúziu. Na dátach zo súťaže DCASE dosiahol najlepší GMM systém úspešnosť 60.4% a i-vektor systém 68.4%. Fúzia GMM systému a najlepšieho i-vektor systému výsledok ešte zlepšila na 69.3%, čo by v dobe súťaže stačilo na 20. miesto z 98 odovzdaných systémov z celého sveta.
Microphone Arrays for Speaker Recognition
Mošner, Ladislav ; Plchot, Oldřich (oponent) ; Černocký, Jan (vedoucí práce)
This thesis addresses the problem of remote speaker recognition. The accuracy of standard speaker recognition decreases considerably in the presence of far-field data, therefore, we devised two strategies to improve the results. First, we employed a microphone array (purposely positioned set of microphones) that is able to steer a virtual "beam" to the position of the speaker. We also performed system adaptation of different parts of the system (PLDA scoring and i-vector extraction). We have synthesized our training and test data from the standard NIST 2010 data by room simulation and we have shown that both techniques and their combination significantly improve the results. We have also dealt with joint speaker identity and position estimation. While the results in simulated outdoor environment (reverberation-free) are encouraging, the results from interiors (with reverberation) are mixed and require further investigation. Finally, we were able to test our system on a limited amount of real re-transmitted data. While the results for male speakers match the simulation, the results for females are not convincing and need further analysis.

Národní úložiště šedé literatury : Nalezeno 12 záznamů.   1 - 10další  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.