|
Rozpoznávání řeči pro vybrané jazyky
Schmitt, Jan ; Karafiát, Martin (oponent) ; Janda, Miloš (vedoucí práce)
Tato práce se zabývá rozpoznáváním spojité řeči pro trojici jazyků bulharštinu, chorvatštinu a švédštinu. Zpráva popisuje základy zpracování a rozpoznávání řeči, tvorbu akustických modelů pomocí skrytých Markovových modelů a směsi gaussovských rozložení a použití těchto technik pro rozpoznávání řeči v toolkitu Kaldi. Další součástí práce je postup přípravy dat pro toolkity pro rozpoznávání řeči HTK a Kaldi na základě dat z databáze GlobalPhone. V závěru jsou vytvořené modely otestovány pomocí testovacích dat a porovnány výsledky z jednotlivých modelů.
|
|
Application of Mean Normalized Stochastic Gradient Descent for Speech Recognition
Klusáček, Jan ; Hradiš, Michal (oponent) ; Pešán, Jan (vedoucí práce)
The artificial neural networks are on the rise in recent years. One possible optimization technique is mean-normalized stochastic gradient descent recently proposes by Wiesler et al. [1]. This work further explains and examines this method on phoneme classification task. Not all findings of Wiesler et al. can be confirmed. The mean-normalized SGD is helpful only if the network is large enough (but not too deep) and if the sigmoid non-linear function is used. Otherwise, the mean-normalized SGD slightly impairs the network performance and therefore cannot be recommended as a general optimization technique. [1] Simon Wiesler, Alexander Richard, Ralf Schluter, and Hermann Ney. Mean-normalized stochastic gradient for large-scale deep learning. In Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on, pages 180{184. IEEE, 2014.
|
|
Adaptace rozpoznávače řeči na datech bez přepisu
Švec, Ján ; Karafiát, Martin (oponent) ; Schwarz, Petr (vedoucí práce)
Cílem práce je vytvořit a otestovat techniky pro adaptaci rozpoznávače řeči na audionahrávkach bez slovního přepisu. Nejprve připravíme data pro trenovaní rozpoznavače řeči a natrénujeme počáteční systém. Tímto rozpoznavačem přepišeme neznáma data a zaměříme se na experimentování s výběrem kvalitních adaptačních dat na základě míry kvality přepisu. Systém na nově vytvořené sadě přetrénujeme a vyhodnotíme úspešnost. Dále experimentujeme s množstvím adaptačních dat.
|
|
Online detekce jednoduchých příkazů v audiosignálu
Zezula, Miroslav ; Březina, Lukáš (oponent) ; Krejsa, Jiří (vedoucí práce)
Tato práce popisuje vývoj hlasového modulu, který je schopen rozpoznávat jednoduché řečové povely na základě porovnání zvukového vstupu s uloženými vzory. První část práce obsahuje popis použitého algoritmu a ověření jeho funkčnosti. Algoritmus je založen na Mel-frekvenčních cepstrálních koeficientech a dynamickém borcení času. Dále je navržen hardware hlasového modulu, obsahující signálový kontrolér 56F805 firmy Freescale. Signál z mikrofonu je upraven operačními zesilovači a digitálním filtrem. Třetí část se zabývá vývojem software pro kontrolér a popisuje implementaci algoritmu v pevné řádové čárce s ohledem na omezené možnosti kontroléru. Závěrečná zkouška prokazuje použitelnost modulu v prostředí s nízkým obsahem šumu.
|
|
Voice Sample database design for speech recognition purposes
Grobelný, Petr ; Malý, Jan (oponent) ; Pfeifer, Václav (vedoucí práce)
This thesis deals with problems of speech recognition and creation of speech corpus, which will serve as a training or testing data for speech recognition system. Mentioned corpus is designed as a corpus of read speech. In theoretical part reader is acquainted with the term Speech Recognition and then is more deeply introduced to the problems. The practical part consists of a detailed description of read speech database creation. The very corpus is then presented on the attached data carrier. In the last part there is a documentation of the read speech corpus presented.
|
|
Rozpoznávání řeči s pomocí nástroje Sphinx-4
Kryške, Lukáš ; Uher, Václav (oponent) ; Burget, Radim (vedoucí práce)
Tato diplomová práce se zabývá hledáním efektivní techniky pro strojové rozpoznávání řeči, konkrétně pak strojovým přepisem mluvené řeči do textu a následným hledáním klíčových slov. Toto řešení lze následně použit pro analýzy telefonních hovorů nebo jiné podobné aplikace. Celá diplomová práce se věnuje nástroji Sphinx-4 pro strojové rozpoznávání řeči, který využívá k popisu akustických modelů skrytých Markovových modelů (HMM – Hidden Markov Model). Práce detailně vysvětluje, jak takové modely připravit pro nový jazyk nebo dialekt jazyka a jak tyto modely softwarově implementovat v jazyce Java.
|
|
Zpracování signálů pomocí skrytých Markovových modelů
Hampl, Jindřich ; Pfeifer, Václav (oponent) ; Sigmund, Milan (vedoucí práce)
Jedna z nejpoužívanějších metod pro rozpoznávání řeči je založena na skrytých Markovových modelech. Jedna z nejpoužívanějších metod pro rozpoznávání řeči je založena na Markovových modelech. Řečový signál můžeme považovat za sled po sobě jdoucích částí signálu s specifickými statistickými parametry. Skrytý Markovův model odpovídá statistickému modelu s konečným počtem stavů, který může být užitečný pro signály, jako je například řeč. Modul HTK je soubor programů, který je nejvíce používán pro práci se skrytými Markovovými modely.
|
|
Dekodér pro systém detekce klíčových slov
Krotký, Jan ; Míča, Ivan (oponent) ; Pfeifer, Václav (vedoucí práce)
Práce seznamuje čtenáře se základními vlastnostmi rozpoznávání lidské řeči, popisuje systémy pro detekci klíčových slov a blíže se věnuje návrhu jednotlivých bloků dekodéru rozdělených do tří kapitol. První z nich popisuje operace, které jsou se signálem prováděny před rozdělením na rámce, i samotnou segmentaci. Druhá kapitola popisuje výpočet krátkodobé energie, počtu průchodů nulou a výpočet autokorelačních, predikčních a Melovských kepstrálních koeficientů. Třetí kapitola, která se zabývá návrhem bloku dekodéru, popisuje rozpoznávání pomocí metody dynamického borcení času a metody založené na skrytých Markovových modelech. V závěrečné části práce je popsán návrh dekodérů pracujících s plynulou řeči a návrh jednoduchého dekodéru pracujícího s izolovanými slovy, který je na základě předcházejících kapitol sestrojen a otestován.
|
|
Rozpoznáváni standardních PILOT-CONTROLLER řídicích povelů v hlasové podobě
Kufa, Tomáš ; Polách, Petr (oponent) ; Honzík, Petr (vedoucí práce)
Obsahem této práce je aplikace rozpoznávání řeči na ATC povely. Volba metod a přístupů k automatickému rozpoznávání ATC povelů vychází z podrobné studie letového provozu. Protože neexistuje jednoznačné řešení, zvlášť v tak obsáhlém oboru jako je rozpoznávaní řeči, je v této práci realizován rozpoznávač založený na porovnávání se vzory (DTW) a je srovnán s volně dostupným systémem HTK z University v Camridge založeném na statistických metodách využívajících skryté Markovovy modely. Míra vhodnosti obou metod je podložena praktickým testováním a vyhodnocením výsledku.
|
|
Hlasové vypínání elektrických přístrojů
Rozsypálek, Lukáš ; Šebesta, Vladimír (oponent) ; Sigmund, Milan (vedoucí práce)
Diplomová práce ve své teoretické části pojednává o zpracování akustického signálu před samotným rozpoznáváním slov. Jsou zde popsány metody pro automatické rozpoznávání slov a získávání příznaků. Mezi tyto metody patří krátkodobá energie signálu, krátkodobá autokorelační funkce, lineární prediktivní analýza atd. V praktické části byl navržen software, který při vyslovení klíčového slova „zastav“ provede vypnutí přístroje. Ve druhé části byl tento software optimalizován pro reálné prostředí s rušením elektrických přístrojů.
|