Národní úložiště šedé literatury Nalezeno 20 záznamů.  1 - 10další  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Improving Robustness of Speaker Recognition using Discriminative Techniques
Novotný, Ondřej ; Ferrer, Luciana (oponent) ; Pollák, Petr (oponent) ; Černocký, Jan (vedoucí práce)
This work deals with discriminative techniques in speaker verification systems to improve robustness of the systems against factors that negatively affect their performance. These factors include noise, reverberation, or the transmission channel. The thesis consists of two main parts. In the first part, it deals with a theoretical introduction to current state-of-the-art speaker verification systems. The recognition system's steps are described, starting from the extraction of acoustic features, the extraction of vector representations of recordings, and the final recognition score computation. Particular emphasis is paid to the techniques of extraction of a vector representation of a recording, where we describe two different paradigms: the i-vectors and the x-vectors. The second part of the work focuses more on discriminative techniques to increase robustness. Their description is organized to match the gradual passage of the recording through the verification system. First, attention is paid to signal pre-processing using a neural network for noise reduction and speech enhancement. This pre-processing is a universal technique independent of the verification system. The work follows by focusing on the use of a discriminative approach in the extraction of features and the extraction of vector representations of recordings. Furthermore, this work sheds light on the transition from generative systems to discriminative systems. In order to give a fuller context, the work also describes techniques that had historically preceded this transition. All presented techniques are always experimentally verified and their advantages evaluated. We are proposing several techniques that have proved successful in both the generative approach in the form of i-vectors and discriminative x-vectors, and thanks to them, considerable improvement has been achieved. For completeness, in the field of robustness, other techniques are included in the work, such as normalization of scores or multi-condition training. Finally, the work deals with the robustness of discriminative systems in terms of data used in their training.
Robustní rozpoznávání mluvčího
Profant, Ján ; Novotný, Ondřej (oponent) ; Matějka, Pavel (vedoucí práce)
Cílem této práce je analyzovat úspěšnost systému rozpoznávaní mluvčího na nahrávkach degradovaných různym telefonním přenosovým kanálem. Použili jsme dva způsoby extrakce příznaků - Mel Frequency Cepstral Coefficients (MFCC) a moderní systém, který spojuje Bottleneck příznaky spolu s MFCC. Systém rozpoznávání mluvčího je založen na i-vektorech a Pravděpodobnostní Lineární Diskriminační Analýze (PLDA). Porovnali jsme scenáře, kde je PLDA trénovaná jen na čisté řeči, poté systém kde jsme přidali data s hlukem a reverberací a nakonec, data degradované kodekem. Vyhodnotili jsem systémy za rovnakých podmínek (data ze stejného kodeku byli také v trénování PLDA) a také za rozdílnych podmínek (data ze stejného kodeku resp. rodiny kodeků nebyli v trénování PLDA). Také jsme experimentovali s nedávno představenou technikou na adaptaci kanálu - Within-class Covariance Correction (WCC). Můžeme jednoznačně vidět zlepšení úspěšnosti přidáním degradovaných dat do PLDA resp. WCC (s přibližně stejným výsledkem) pro obě naše testované podmínky.
Robustní rozpoznávání mluvčího pomocí neuronových sítí
Profant, Ján ; Rohdin, Johan Andréas (oponent) ; Matějka, Pavel (vedoucí práce)
Tématem této práce je analýza nejmodernějších systémů pro rozpoznávání řečníka za použití neurónových sítí (nazývaných x-vektory) v rozličných podmínkách, jako jsou širokopásmové a úzkopásmové data, který je robustní vůči neviděnému jazyku, specifickému hluku nebo telefonnimu kodeku. Automatický systém mapuje zvukovou nahrávku variabilní délky do fixně dlouhého vektoru, který je následně využit jako reprezentace řečníka. V této práci jsme porovnali systémy založené na neurónových sítich s výsledkem VUT týmu v Speakers in the Wild Speaker Recognition Challenge (SITW), který využíval donedávna velmi populární statistický model - i-vektory. Pozorovali jsme, že s nedávno publikovanými x-vektory dosahujeme 4.38 krát nižší Equal Error Rate pro SITW core-core evaluační sadu v porovnání s výsledkem z roku 2016 od VUT v SITW soutěži. Kromě toho jsme ukázali, že diarizace v nahrávkach s více mluvčími významně snižuje chybovost systému pro SITW core-multi evaluační data, ale podobný trend jsme neviděli pro dataset NIST SRE 2018 VAST.
Rozpoznávání mluvčího
Kašpar, Ladislav ; Atassi, Hicham (oponent) ; Sysel, Petr (vedoucí práce)
Ve své bakalářské práci se věnuji problému rozpoznávání mluvčího. Tato práce obsahuje základní teorie k tomuto tématu. Teorie je zaměřena na výpočet parametrů pro rozpoznávání mluvčího a na popis postupu při rozpoznávání mluvčího. Jako hlavní parametry v programu na rozpoznávání mluvčího napsaného v jazyce Matlab využívám kmitočty formantů, kepstrální koeficienty a segmentaci signálu.
Speaker Verification without Feature Extraction
Lukáč, Peter ; Rohdin, Johan Andréas (oponent) ; Mošner, Ladislav (vedoucí práce)
Speaker verification is a field that is still improving its state of the art (SotA) and tries to meet the demands of its use in speaker authentication systems, forensic applications, etc. The improvements are made by the advancements in deep learning, the creation of new training and testing datasets and various speaker recognition challenges and speech workshops. In this thesis, we will explore models for speaker verification without feature extraction. Inputting the models with raw speaker waveform simplifies the pipeline of the systems, thus saving computational and memory resources and reducing the number of hyperparameters needed for creating the features from waveforms that affect the results. Currently, the models without feature extraction do not achieve the performance of the models with feature extraction. By applying various techniques to the models we will try to improve the baseline performance of the current models without feature extraction. The experiments with SotA techniques improved the performance of a model without feature extraction considerably however we still did not achieve the performance of a SotA model with feature extraction. However, the improvement is considerable enough so that we can use the improved model in a fusion with feature extraction model. We also discussed the experimental results and proposed improvements that aim to solve discovered limitations.
Textově závislé rozpoznávání mluvčího
Fux, Jan ; Glembek, Ondřej (oponent) ; Matějka, Pavel (vedoucí práce)
Cílem této bakalářské práce bylo navrhnout systém pro textově závislé rozpoznávání mluvčího. Bylo otestováno několik přístupů na databázi MIT, která obsahuje nahrávky průměrné délky 0,46s. Z otestovaných přístupů se jeví jako nejlepší kombinace systému DTW s využitím odhadu posteriorních pravděpodobností fonémů (posteriogramu) jako výstupu z Fonémového rozpoznávače, a akustického SID systému založeného na iVektorech a PLDA (Probabilistic Linear Component Analysis). Fúze těchto dvou systémů pomocí Neuronové sítě dosahuje nejlepších výsledků (EER) a to 17,84% pro ženy a 16,38% pro muže, což je relativní zlepšení 49,9% u žen a 54,2% u mužů oproti samostatnému akustickému rozpoznávání.
Rozpoznávání mluvčího ve Skype hovorech
Kaňok, Tomáš ; Glembek, Ondřej (oponent) ; Schwarz, Petr (vedoucí práce)
Tato diplomová práce se zabývá problematikou strojové identifikace a verifikace řečníka, její teorií a aplikací. Vyhodnocuje existující implementaci dané problematiky skupinou Speech@FIT. Dále se zabývá problematikou tvorby zásuvných modulů do komunikačního programu Skype. Následně je navržen zásuvný modul pro Skype umožňující identifikaci a verifikaci řečníka. Ten je implementován a vyhodnocen. V závěru jsou uvedeny návrhy dalšího vývoje.
Speaker Recognition on Mobile Phone
Pešán, Jan ; Glembek, Ondřej (oponent) ; Černocký, Jan (vedoucí práce)
This work aims to port Speaker Identification System (SID) to the mobile device / mobile phone. We will describe basic principles, function and implementation of speaker identification system on Nokia N900 mobile phone.
Multiplatformní aplikace pro verifikaci mluvčího
Görig, Jan ; Matějka, Pavel (oponent) ; Glembek, Ondřej (vedoucí práce)
Bakalářská práce se zabývá rozpoznáváním mluvčího bez znalosti textu sdělení. Zmiňuje dnes používané způsoby extrakce příznaků a jejich vyhodnocení pomocí směsice Gaussových hustotních funkcí. Praktickým výstupem práce je aplikace pro vizualizaci průběhu rozpoznávání. Návrh aplikace je multiplatformní a využívá knihoven Qt a BSAPI.
Analýza kombinace informací ve více-kanálové verifikaci mluvčích
Procházka, Jan ; Plchot, Oldřich (oponent) ; Mošner, Ladislav (vedoucí práce)
Tato práce se zabývá analýzou a porovnáním kombinací informací více-kanálových řečových dat pro úlohu verifikace mluvčího. Byly zvoleny tři úrovně/reprezentace pro fúzi dat: kombinace na úrovni signálu, embeddingu a skóre. Na úrovni signálu jsou implementovány prostorové filtry (algoritmy formování svazku – beamforming). Řečové nahrávky slouží jako vstup do neuronové sítě (architektura ECAPA-TDNN), která extrahuje „embeddingy“, vektorovou reprezentaci mluvčího. Vektory jsou dále porovnány pomocí kosinové podobnosti, jehož výsledkem jsou skóre, reálná čísla. Nejlepšího relativního zlepšení proti jedno-kanálovým nahrávkám dosahuje fúze na úrovni skóre (až 70 %), nejkonzistentnější výsledky pro různé podmínky pořizování nahrávek poskytuje fúze na úrovni embeddingu.

Národní úložiště šedé literatury : Nalezeno 20 záznamů.   1 - 10další  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.