Národní úložiště šedé literatury Nalezeno 94 záznamů.  1 - 10dalšíkonec  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Vyhledávání hlasem na internetu
Belobrad, Michal ; Matějka, Pavel (oponent) ; Schwarz, Petr (vedoucí práce)
Tato bakalářská práce se zabývá tvorbou aplikace pro dotykové telefony s operačním systémem Bada. Cílem této aplikace je umožnit uživatelům vyhledávat na internetu pomocí svého hlasu. Seznámíme se s telefonem Samsung Wave, pro který byla tato aplikace vyvíjena. Dále blíže se podíváme na zpracování výsledků rozpoznávače, našeptávače a jejich kombinace.
Základní geometrická koncepce letounu
Matějka, Pavel ; Kouřil, Martin (oponent) ; Šošovička, Róbert (vedoucí práce)
Bakalářská práce je zaměřena na popis základních geometrických koncepcí letadel, rozbor jejich výhod a nevýhod z hlediska aerodynamického, konstrukčního a provozního. Vhodnost použití v jednotlivých kategoriích a nové trendy vývoje.
Detekce změny jazyka při hovoru
Povolný, Filip ; Glembek, Ondřej (oponent) ; Matějka, Pavel (vedoucí práce)
Tato práce se zabývá problematikou detekce změny jazyka při hovoru. V první části jsou popsány v současnosti používané metody diarizace jazyků. K implementaci byla vybrána metoda založená na akustickém přístupu identifikace jazyka s využitím směsi Gaussovských rozložení, i-vektoru a lineární diskriminační analýzy. Pro experimenty byla vytvořena mandarínsko-anglická databáze se střídáním jazyků. Na této databázi zvolený systém dosahuje úspěšnosti 89,3 % správně klasifikovaných segmentů.
Kdy kdo mluví?
Tomášek, Pavel ; Karafiát, Martin (oponent) ; Matějka, Pavel (vedoucí práce)
Práce se věnuje implementaci diarizace mluvčího. Popisuje jednotlivé komponenty diarizačního systému, který umí zodpovědět otázku "kdy kdo mluví". Mezi součásti takového systému patří postupně extrakce příznaků vstupních dat, detekce řeči/ticha, segmentace mluvčích, jejich následné shlukování a nakonec i techniky zaměřené na zlepšení finální segmentace. Práce pochopitelně uvádí i dosažené výsledky implementovaného systému na testovací sadě nahrávek včetně popisu způsobu hodnocení. Testovací nahrávky pochází z NIST RT evaluací z let 2005 - 2007 a nejnižší dosažená chybovost na této sadě je 18,52% DER. K porovnání výsledků systému na testovací sadě souborů je zde uvedena i úspěšnost Marijna Huijbregtse z Nizozemí, který v roce 2009 pracoval se stejnými nahrávkami a dosáhl chybovosti 12,91% DER.
Robustní rozpoznávání mluvčího
Profant, Ján ; Novotný, Ondřej (oponent) ; Matějka, Pavel (vedoucí práce)
Cílem této práce je analyzovat úspěšnost systému rozpoznávaní mluvčího na nahrávkach degradovaných různym telefonním přenosovým kanálem. Použili jsme dva způsoby extrakce příznaků - Mel Frequency Cepstral Coefficients (MFCC) a moderní systém, který spojuje Bottleneck příznaky spolu s MFCC. Systém rozpoznávání mluvčího je založen na i-vektorech a Pravděpodobnostní Lineární Diskriminační Analýze (PLDA). Porovnali jsme scenáře, kde je PLDA trénovaná jen na čisté řeči, poté systém kde jsme přidali data s hlukem a reverberací a nakonec, data degradované kodekem. Vyhodnotili jsem systémy za rovnakých podmínek (data ze stejného kodeku byli také v trénování PLDA) a také za rozdílnych podmínek (data ze stejného kodeku resp. rodiny kodeků nebyli v trénování PLDA). Také jsme experimentovali s nedávno představenou technikou na adaptaci kanálu - Within-class Covariance Correction (WCC). Můžeme jednoznačně vidět zlepšení úspěšnosti přidáním degradovaných dat do PLDA resp. WCC (s přibližně stejným výsledkem) pro obě naše testované podmínky.
Unsupervised Evaluation of Speaker Recognition System
Odehnal, Ondřej ; Plchot, Oldřich (oponent) ; Matějka, Pavel (vedoucí práce)
The context of this thesis is the state-of-the-art system for speaker identification (SID) based on the deep nerual network with x-vector embeddings. This thesis aims to propose and experimentally assess several techniques for evaluating the SID system using unlabelled datasets. For this purpose, discriminative embedding is created for every recording in the dataset. These embeddings are used to cluster the recordings and thus create pseudo-labels corresponding to different clusters. The SID system evaluation is based on equal error rate (EER), which uses these pseudo-labels. We proposed several unsupervised learning algorithms to achieve this; K-means, Gaussian mixture models (GMM), and agglomerative hierarchical clustering (AHC). After thorough testing, the K-means model with the Silhouette value showed the best results. This method achieved an estimate of 5.72 % EER with the reference EER equal to 5.15 % on SITW dev-core-core. Similar results were observed on the SITW eval-core-core, where the estimated EER is equal to 5.86 % and the reference 5.08 %. The difference between estimated and reference EER is 0.57 % for the dev-core-core and 0.78 % for the eval-core-core. Another series of experiments were conducted on NIST SRE16 and VoxCeleb1 to verify robustness of the proposed method. Generally, the developed testing process had an estimated error of around 1 % in all test databases, an excellent result for an unsupervised learning technique.
Odhad obličeje z řečového signálu
Krušina, Josef ; Matějka, Pavel (oponent) ; Plchot, Oldřich (vedoucí práce)
Tato práce řeší problém mapování fixních reprezentací (embeddingů) řečového signálu na embeddingy obličejů a následné generování obličeje z namapovaného embeddingu pomocí generativní adverzní sítě (GAN) naučené na generování obličejů. GAN jsou druhem neuronových sítí, které umí generovat data podobná těm, na kterých se trénovala. Architektura navrženého systému je založena na čtyřech komponentách: na extraktoru embeddingů obličeje, na extraktoru embeddingů hlasu, na algoritmu nad GAN, který umí generovat obličej z embeddingu obličeje a na mnou implementované mapovací síti určené k mapování embeddingu hlasu na embedding obličeje. Jako extraktory embeddingů jsou převzaty předtrénované neuronové sítě FaceNet a SpeechBrain. Pro zpětné generování obličeje je převzatý model používající předtrénovaný StyleGAN2. Přínos této práce je ten, že dovoluje extrapolovat obličej pouze z audio signálu.
Hledání nových cest v rozpoznávání řečníka založeného na neuronových sítích
Sova, Damián ; Matějka, Pavel (oponent) ; Glembek, Ondřej (vedoucí práce)
Keďže zadanie tejto práce je veľmi široké, tak sa bolo treba sústrediť len na určitú sféru. Nakoniec, cieľom tejto práce je aplikovať optimalizačnú metódu Stochastického Spriemerovania Váh do tréningového procesu Hlbokej Neurónovej Siete. Po predstavení potrebných teoretických vedomostí v prvej časti práce, nasleduje druhá časť s priebehmi jednotlivých experimentov. V teoretickej časti je dôraz kladený hlavne na objasnenie celého životného cyklu trénovacieho a vyhodnocovacieho procesu, vrátane popisu jednotlivých komponentov. Praktická časť poskytuje podrobný pohľad na každý experiment, ktorých cieľom je demonštrovať dosiahnuteľnosť zvýšenia výkonnosti systému rozpoznávania rečníka. Celkové zlepšenie výkonu sa podarilo dosiahnuť postupným aplikovaním rôznych tréningových konfigurácií, v ktorých sa zohľadňujú skúsenosti z predchádzajúcich experimentov. Kľúčovou zložkou úspešného Stochastického Spriemerovania Váh v experimentoch bola dostatočne vysoká konštantná hodnota Miery Učenia s aplikovaným postupným prechodom alebo Cyklický priebeh Miery Učenia.
Robustní rozpoznávání mluvčího pomocí neuronových sítí
Profant, Ján ; Rohdin, Johan Andréas (oponent) ; Matějka, Pavel (vedoucí práce)
Tématem této práce je analýza nejmodernějších systémů pro rozpoznávání řečníka za použití neurónových sítí (nazývaných x-vektory) v rozličných podmínkách, jako jsou širokopásmové a úzkopásmové data, který je robustní vůči neviděnému jazyku, specifickému hluku nebo telefonnimu kodeku. Automatický systém mapuje zvukovou nahrávku variabilní délky do fixně dlouhého vektoru, který je následně využit jako reprezentace řečníka. V této práci jsme porovnali systémy založené na neurónových sítich s výsledkem VUT týmu v Speakers in the Wild Speaker Recognition Challenge (SITW), který využíval donedávna velmi populární statistický model - i-vektory. Pozorovali jsme, že s nedávno publikovanými x-vektory dosahujeme 4.38 krát nižší Equal Error Rate pro SITW core-core evaluační sadu v porovnání s výsledkem z roku 2016 od VUT v SITW soutěži. Kromě toho jsme ukázali, že diarizace v nahrávkach s více mluvčími významně snižuje chybovost systému pro SITW core-multi evaluační data, ale podobný trend jsme neviděli pro dataset NIST SRE 2018 VAST.
Detekce lidské řeči v audio nahrávce
Břenek, Roman ; Grézl, František (oponent) ; Matějka, Pavel (vedoucí práce)
Tato práce se zabývá technikami detekce lidské řeči v nahrávkách. Je nutné při rozpoznávání správně klasifikovat všechny neřečové segmenty a naopak rozpoznat veškerou řeč i v hlučných a zašuměných prostředích. V práci je popsán celý proces rozpoznávání, tzn. digitalizace audio signálu, extrakce příznaků, trénování klasifikátoru, rozpoznávání a samotné vyhodnocení a úpravy před vyhodnocením. Pro rozpoznávání byly použity tři systémy, z nichž jeden je založen na fonémovém rozpoznávání pomocí neuronových sítí, další dva jsou založené na GMM, přičemž každý systém byl testován na třech datových sadách - Tactical Speaker Identification Speech Corpus (TSID), Ham Radio (HR) a Rich Transcription Evaluation (RT05-RT07).  Nejlepší výsledky každého systému jsou pak zhodnoceny i s výsledky třetích stran.

Národní úložiště šedé literatury : Nalezeno 94 záznamů.   1 - 10dalšíkonec  přejít na záznam:
Viz též: podobná jména autorů
10 MATĚJKA, Petr
10 Matějka, Petr
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.