Národní úložiště šedé literatury Nalezeno 53 záznamů.  1 - 10dalšíkonec  přejít na záznam: Hledání trvalo 0.02 vteřin. 
Unsupervised Evaluation of Speaker Recognition System
Odehnal, Ondřej ; Plchot, Oldřich (oponent) ; Matějka, Pavel (vedoucí práce)
The context of this thesis is the state-of-the-art system for speaker identification (SID) based on the deep nerual network with x-vector embeddings. This thesis aims to propose and experimentally assess several techniques for evaluating the SID system using unlabelled datasets. For this purpose, discriminative embedding is created for every recording in the dataset. These embeddings are used to cluster the recordings and thus create pseudo-labels corresponding to different clusters. The SID system evaluation is based on equal error rate (EER), which uses these pseudo-labels. We proposed several unsupervised learning algorithms to achieve this; K-means, Gaussian mixture models (GMM), and agglomerative hierarchical clustering (AHC). After thorough testing, the K-means model with the Silhouette value showed the best results. This method achieved an estimate of 5.72 % EER with the reference EER equal to 5.15 % on SITW dev-core-core. Similar results were observed on the SITW eval-core-core, where the estimated EER is equal to 5.86 % and the reference 5.08 %. The difference between estimated and reference EER is 0.57 % for the dev-core-core and 0.78 % for the eval-core-core. Another series of experiments were conducted on NIST SRE16 and VoxCeleb1 to verify robustness of the proposed method. Generally, the developed testing process had an estimated error of around 1 % in all test databases, an excellent result for an unsupervised learning technique.
Rozpoznání typu přenosového kanálu z řečového signálu
Kopřiva, Tomáš ; Burget, Radim (oponent) ; Atassi, Hicham (vedoucí práce)
Práce se zabývá rozpoznáním pěti odlišných řečových přenosových kanálů. Použité kanály jsou: GSM, dva PSTN a dva VoIP kanály. Pro účely testování a trénování je vytvořena pro přenosové kanály řečová databáze SPLAB_TranCh. Řečové nahrávky z tohoto korpusu pochází z databáze TIMIT a každá promluva prošla každým přenosovým kanálem. Hlavním cílem práce je nalezení optimálních příznaků a klasifikátorů, které poskytují nejvyšší úspěšnost klasifikace. Je vyzkoušeno několik typů příznaků, včetně MFCC, LPCC a spektrálních charakteristik. Nejlepší suprasegmentální příznaky byly určeny algoritmem mRMR. Také bylo otestováno několik klasifikátorů. Výsledky ukazují, že rozpoznání přenosových kanálů může být realizováno s vysokou úspěšností (okolo 90 %). Práce také zkoumá vliv zkreslení, které může nastat během přenosu, na úspěšnost klasifikace. Jsou uvažovány následující typy zkreslení: saturace, prahování, ozvěna, praskání a vliv filtrů a různých barev šumů.
Detekce lidské řeči v audio nahrávce
Břenek, Roman ; Grézl, František (oponent) ; Matějka, Pavel (vedoucí práce)
Tato práce se zabývá technikami detekce lidské řeči v nahrávkách. Je nutné při rozpoznávání správně klasifikovat všechny neřečové segmenty a naopak rozpoznat veškerou řeč i v hlučných a zašuměných prostředích. V práci je popsán celý proces rozpoznávání, tzn. digitalizace audio signálu, extrakce příznaků, trénování klasifikátoru, rozpoznávání a samotné vyhodnocení a úpravy před vyhodnocením. Pro rozpoznávání byly použity tři systémy, z nichž jeden je založen na fonémovém rozpoznávání pomocí neuronových sítí, další dva jsou založené na GMM, přičemž každý systém byl testován na třech datových sadách - Tactical Speaker Identification Speech Corpus (TSID), Ham Radio (HR) a Rich Transcription Evaluation (RT05-RT07).  Nejlepší výsledky každého systému jsou pak zhodnoceny i s výsledky třetích stran.
Rozpoznávání řeči pro vybrané jazyky
Schmitt, Jan ; Karafiát, Martin (oponent) ; Janda, Miloš (vedoucí práce)
Tato práce se zabývá rozpoznáváním spojité řeči pro trojici jazyků bulharštinu, chorvatštinu a švédštinu. Zpráva popisuje základy zpracování a rozpoznávání řeči, tvorbu akustických modelů pomocí skrytých Markovových modelů a směsi gaussovských rozložení a použití těchto technik pro rozpoznávání řeči v toolkitu Kaldi. Další součástí práce je postup přípravy dat pro toolkity pro rozpoznávání řeči HTK a Kaldi na základě dat z databáze GlobalPhone. V závěru jsou vytvořené modely otestovány pomocí testovacích dat a porovnány výsledky z jednotlivých modelů.
Rozpoznávání emočních stavů na základě analýzy řečového signálu
Čermák, Jan ; Atassi, Hicham (oponent) ; Smékal, Zdeněk (vedoucí práce)
Obsah této práce je zaměřen na klasifikaci emočních stavů s použitím neuronových sítí a klasifikátoru na bázi směsi Gaussových hustotních funkcí s využitím programu Matlab. Pojednává o problematice zpracování řečového signálu, z něhož byly extrahovány prozodické, spektrální příznaky a MFCC koeficienty. Práce se zabývá určením kvality jednotlivých příznaků a výběrem nejvhodnějších pro správnou klasifikaci emočních stavů. Pro určení emočních stavů byly použity dvě rozdílné metody. První metodou jsou neuronové sítě s různě zvolenými parametry. Druhou metodou klasifikace je použití smíšených Gaussových modelů tzv. GMM. U obou metod byla pro klasifikaci rozdělena databáze emočních promluv na trénovací a testovací skupinu. Při testování byla využita metoda nezávislá na mluvčím. Součástí práce je porovnání jednotlivých analyzovaných postupů, zobrazení a porovnání výsledků. Závěrem práce je návrh nejvhodnějších parametrů a klasifikátoru pro rozpoznání emočního stavu mluvčího.
Detekce ohně a kouře ve videosekvenci
Tomek, Peter ; Štancl, Vít (oponent) ; Švub, Miroslav (vedoucí práce)
Cílem práce je analýza vstupní videosekvence a následné nalezení oblastí, které obsahujících oheň nebo kouř. Daný problém je rozdělen na dvě podúlohy-detekci ohně a detekci kouře. Základem a prvním krokem analýzy je detekce daných oblastí pomocí Gaussova zloženého modelu-Gaussian mixture model. Na jeho natrénovaní je použit algoritmus Expectation- Maximization, nebo skráceně EM. Pro detekci kouře se dále používa technika optického toku. Výsledné oblasti jsou pak upraveny pomocí aplikace různých morfologických metod a analýzou vzájemné polohy detekovaných oblastí. Výstupem algoritmu je opět videosek- vence, ve které jsou zvýrazněny oblasti s pravděpodobnou přítomností ohně nebo kouře.
Segmentace cévního řečiště na snímcích sítnice s využitím statistických metod
Šolc, Radek ; Walek, Petr (oponent) ; Odstrčilík, Jan (vedoucí práce)
Diplomová práce se zabývá problematikou segmentace krevního řečiště ze snímku fundus kamery. Teoretická část pojednává o základních charakteristikách těchto snímku. Jsou zde probrány nynější přístupy k segmentaci krevního řečiště. Cíl praktické části je návrh metody využívající statistického modelu. Postupně je vytvářen model využívající Studentova rozdělení, použitelný pro automatickou segmentaci. Do tohoto modelu byl zapojen nejprve iterační algoritmus E-M a poté model založený na Markovských náhodných polích z důvodu zvýšeni robustnosti celého modelu vůči šumu. Kontrast mezi tenkými cévami a okolím byl zvýšen ve fázi předúpravy obrazu pomocí diskrétní vlnovkové transformace. Výstupní binární obraz vlnkové transformace je použit jako maska pro snížení intenzity odstínu šedi tenkých cév a zesvětlení okolí patřící pozadí sítnice. Celý model byl implementován v prostředí Matlab. Navržený model byl testována na celé databázi snímků HRF. Výstupní binární obrazy byli kvantitativně hodnoceny v porovnání s zlatými standardy HRF.
Neuronové sítě při klasifikaci mluvčích
Svoboda, Libor ; Atassi, Hicham (oponent) ; Míča, Ivan (vedoucí práce)
Obsah této práce je zaměřen na neuronové sítě při klasifikaci mluvčích. Pojednává o problematice zpracování řečového signálu a jsou zde uvedeny i některé typy neuronových sítí. Součástí práce bylo sestavení databáze nahrávek od řečníků různého pohlaví a věku. Z této databáze pak byla sestavena trénovací a testovací skupina. Dále byly navrženy čtyři klasifikátory. Jeden na bázi směsi Gaussových hustotních funkcí a tři neuronové klasifikátory. Tyto systémy byly testovány a analyzovány podle věku, pohlaví a na závěr pro obě tyto kritéria. Současně je věnována pozornost i volbě vhodných příznaků v každé této úloze klasifikace. Na konci práce jsou uvedeny výsledky analýz pro jednotlivé skupiny i příznaky. Z těchto výsledků jsou stanoveny nejvhodnější příznaky, pro danou úlohu klasifikace a také nejúspěšnější klasifikátory.
Konverze hlasu
Brukner, Jan ; Plchot, Oldřich (oponent) ; Černocký, Jan (vedoucí práce)
Práce se věnuje konverzi hlasu. Tedy metodě, ve které se snažíme modifikovat řečové parametry zdrojového mluvčího na cílového. V práci je nejdříve popsána Voice Conversion Challenge (VCC), ve které se účastníci snažili vytvořit co nejlepší systém pro konverzi hlasu. V další části jsou analyzovány komponenty baseline systému použitého ve VCC. Poté jsou navrženy úpravy, které mohou zlepšit kvalitu konvertovaného hlasu. Následně je stručně popsána implementace těchto úprav a vyhodnoceny výsledky změn. V závěru je část věnována dalším možnostem vylepšení konverze hlasu.
Klasifikace akustických signálů
Pospíšil, Aleš ; Balík, Miroslav (oponent) ; Atassi, Hicham (vedoucí práce)
Bakalářská práce se zaměřuje na problematiku automatické klasifikace hudebních žánrů. Nejprve je hodnocen současný stav řešení problému s odkazem na již vytvořené studie a získané poznatky jsou využity k vlastní práci. Předmětem řešení problému je shrnutí použitelných hudebních příznaků a také klasifikačních metod jako neuronové sítě a k-nejbližší soused. Vybrané klasifikační třídy jsou vážná hudba, elektro, jazz a rock. Výsledkem bakalářské práce je systém pro automatické rozpoznání hudebních žánrů, který bude použitelný a uživatelsky přístupný. Dosažené rozpoznavací výsledky do jisté míry respektují schopnosti lidského organismu právě hudební žánry rozpoznat.

Národní úložiště šedé literatury : Nalezeno 53 záznamů.   1 - 10dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.