Národní úložiště šedé literatury Nalezeno 9 záznamů.  Hledání trvalo 0.00 vteřin. 
Unsupervised Evaluation of Speaker Recognition System
Odehnal, Ondřej ; Plchot, Oldřich (oponent) ; Matějka, Pavel (vedoucí práce)
The context of this thesis is the state-of-the-art system for speaker identification (SID) based on the deep nerual network with x-vector embeddings. This thesis aims to propose and experimentally assess several techniques for evaluating the SID system using unlabelled datasets. For this purpose, discriminative embedding is created for every recording in the dataset. These embeddings are used to cluster the recordings and thus create pseudo-labels corresponding to different clusters. The SID system evaluation is based on equal error rate (EER), which uses these pseudo-labels. We proposed several unsupervised learning algorithms to achieve this; K-means, Gaussian mixture models (GMM), and agglomerative hierarchical clustering (AHC). After thorough testing, the K-means model with the Silhouette value showed the best results. This method achieved an estimate of 5.72 % EER with the reference EER equal to 5.15 % on SITW dev-core-core. Similar results were observed on the SITW eval-core-core, where the estimated EER is equal to 5.86 % and the reference 5.08 %. The difference between estimated and reference EER is 0.57 % for the dev-core-core and 0.78 % for the eval-core-core. Another series of experiments were conducted on NIST SRE16 and VoxCeleb1 to verify robustness of the proposed method. Generally, the developed testing process had an estimated error of around 1 % in all test databases, an excellent result for an unsupervised learning technique.
Robustní rozpoznávání mluvčího pomocí neuronových sítí
Profant, Ján ; Rohdin, Johan Andréas (oponent) ; Matějka, Pavel (vedoucí práce)
Tématem této práce je analýza nejmodernějších systémů pro rozpoznávání řečníka za použití neurónových sítí (nazývaných x-vektory) v rozličných podmínkách, jako jsou širokopásmové a úzkopásmové data, který je robustní vůči neviděnému jazyku, specifickému hluku nebo telefonnimu kodeku. Automatický systém mapuje zvukovou nahrávku variabilní délky do fixně dlouhého vektoru, který je následně využit jako reprezentace řečníka. V této práci jsme porovnali systémy založené na neurónových sítich s výsledkem VUT týmu v Speakers in the Wild Speaker Recognition Challenge (SITW), který využíval donedávna velmi populární statistický model - i-vektory. Pozorovali jsme, že s nedávno publikovanými x-vektory dosahujeme 4.38 krát nižší Equal Error Rate pro SITW core-core evaluační sadu v porovnání s výsledkem z roku 2016 od VUT v SITW soutěži. Kromě toho jsme ukázali, že diarizace v nahrávkach s více mluvčími významně snižuje chybovost systému pro SITW core-multi evaluační data, ale podobný trend jsme neviděli pro dataset NIST SRE 2018 VAST.
Rozpoznávání mluvčího
Kašpar, Ladislav ; Atassi, Hicham (oponent) ; Sysel, Petr (vedoucí práce)
Ve své bakalářské práci se věnuji problému rozpoznávání mluvčího. Tato práce obsahuje základní teorie k tomuto tématu. Teorie je zaměřena na výpočet parametrů pro rozpoznávání mluvčího a na popis postupu při rozpoznávání mluvčího. Jako hlavní parametry v programu na rozpoznávání mluvčího napsaného v jazyce Matlab využívám kmitočty formantů, kepstrální koeficienty a segmentaci signálu.
Multiplatformní aplikace pro verifikaci mluvčího
Görig, Jan ; Matějka, Pavel (oponent) ; Glembek, Ondřej (vedoucí práce)
Bakalářská práce se zabývá rozpoznáváním mluvčího bez znalosti textu sdělení. Zmiňuje dnes používané způsoby extrakce příznaků a jejich vyhodnocení pomocí směsice Gaussových hustotních funkcí. Praktickým výstupem práce je aplikace pro vizualizaci průběhu rozpoznávání. Návrh aplikace je multiplatformní a využívá knihoven Qt a BSAPI.
Analýza kombinace informací ve více-kanálové verifikaci mluvčích
Procházka, Jan ; Plchot, Oldřich (oponent) ; Mošner, Ladislav (vedoucí práce)
Tato práce se zabývá analýzou a porovnáním kombinací informací více-kanálových řečových dat pro úlohu verifikace mluvčího. Byly zvoleny tři úrovně/reprezentace pro fúzi dat: kombinace na úrovni signálu, embeddingu a skóre. Na úrovni signálu jsou implementovány prostorové filtry (algoritmy formování svazku – beamforming). Řečové nahrávky slouží jako vstup do neuronové sítě (architektura ECAPA-TDNN), která extrahuje „embeddingy“, vektorovou reprezentaci mluvčího. Vektory jsou dále porovnány pomocí kosinové podobnosti, jehož výsledkem jsou skóre, reálná čísla. Nejlepšího relativního zlepšení proti jedno-kanálovým nahrávkám dosahuje fúze na úrovni skóre (až 70 %), nejkonzistentnější výsledky pro různé podmínky pořizování nahrávek poskytuje fúze na úrovni embeddingu.
Unsupervised Evaluation of Speaker Recognition System
Odehnal, Ondřej ; Plchot, Oldřich (oponent) ; Matějka, Pavel (vedoucí práce)
The context of this thesis is the state-of-the-art system for speaker identification (SID) based on the deep nerual network with x-vector embeddings. This thesis aims to propose and experimentally assess several techniques for evaluating the SID system using unlabelled datasets. For this purpose, discriminative embedding is created for every recording in the dataset. These embeddings are used to cluster the recordings and thus create pseudo-labels corresponding to different clusters. The SID system evaluation is based on equal error rate (EER), which uses these pseudo-labels. We proposed several unsupervised learning algorithms to achieve this; K-means, Gaussian mixture models (GMM), and agglomerative hierarchical clustering (AHC). After thorough testing, the K-means model with the Silhouette value showed the best results. This method achieved an estimate of 5.72 % EER with the reference EER equal to 5.15 % on SITW dev-core-core. Similar results were observed on the SITW eval-core-core, where the estimated EER is equal to 5.86 % and the reference 5.08 %. The difference between estimated and reference EER is 0.57 % for the dev-core-core and 0.78 % for the eval-core-core. Another series of experiments were conducted on NIST SRE16 and VoxCeleb1 to verify robustness of the proposed method. Generally, the developed testing process had an estimated error of around 1 % in all test databases, an excellent result for an unsupervised learning technique.
Robustní rozpoznávání mluvčího pomocí neuronových sítí
Profant, Ján ; Rohdin, Johan Andréas (oponent) ; Matějka, Pavel (vedoucí práce)
Tématem této práce je analýza nejmodernějších systémů pro rozpoznávání řečníka za použití neurónových sítí (nazývaných x-vektory) v rozličných podmínkách, jako jsou širokopásmové a úzkopásmové data, který je robustní vůči neviděnému jazyku, specifickému hluku nebo telefonnimu kodeku. Automatický systém mapuje zvukovou nahrávku variabilní délky do fixně dlouhého vektoru, který je následně využit jako reprezentace řečníka. V této práci jsme porovnali systémy založené na neurónových sítich s výsledkem VUT týmu v Speakers in the Wild Speaker Recognition Challenge (SITW), který využíval donedávna velmi populární statistický model - i-vektory. Pozorovali jsme, že s nedávno publikovanými x-vektory dosahujeme 4.38 krát nižší Equal Error Rate pro SITW core-core evaluační sadu v porovnání s výsledkem z roku 2016 od VUT v SITW soutěži. Kromě toho jsme ukázali, že diarizace v nahrávkach s více mluvčími významně snižuje chybovost systému pro SITW core-multi evaluační data, ale podobný trend jsme neviděli pro dataset NIST SRE 2018 VAST.
Rozpoznávání mluvčího
Kašpar, Ladislav ; Atassi, Hicham (oponent) ; Sysel, Petr (vedoucí práce)
Ve své bakalářské práci se věnuji problému rozpoznávání mluvčího. Tato práce obsahuje základní teorie k tomuto tématu. Teorie je zaměřena na výpočet parametrů pro rozpoznávání mluvčího a na popis postupu při rozpoznávání mluvčího. Jako hlavní parametry v programu na rozpoznávání mluvčího napsaného v jazyce Matlab využívám kmitočty formantů, kepstrální koeficienty a segmentaci signálu.
Multiplatformní aplikace pro verifikaci mluvčího
Görig, Jan ; Matějka, Pavel (oponent) ; Glembek, Ondřej (vedoucí práce)
Bakalářská práce se zabývá rozpoznáváním mluvčího bez znalosti textu sdělení. Zmiňuje dnes používané způsoby extrakce příznaků a jejich vyhodnocení pomocí směsice Gaussových hustotních funkcí. Praktickým výstupem práce je aplikace pro vizualizaci průběhu rozpoznávání. Návrh aplikace je multiplatformní a využívá knihoven Qt a BSAPI.

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.