Národní úložiště šedé literatury Nalezeno 20 záznamů.  předchozí11 - 20  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Low-Dimensional Matrix Factorization in End-To-End Speech Recognition Systems
Gajdár, Matúš ; Grézl, František (oponent) ; Karafiát, Martin (vedoucí práce)
The project covers automatic speech recognition with neural network training using low-dimensional matrix factorization. We are describing time delay neural networks with factorization (TDNN-F) and without it (TDNN) in Pytorch language. We are comparing the implementation between Pytorch and Kaldi toolkit, where we achieve similar results during experiments with various network architectures. The last chapter describes the impact of a low-dimensional matrix factorization on End-to-End speech recognition systems and also a modification of the system with TDNN(-F) networks. Using specific network settings, we were able to achieve better results with systems using factorization. Additionally, we reduced the complexity of training by decreasing network parameters with the use of TDNN(-F) networks.
Semi-Supervised Training of Deep Neural Networks for Speech Recognition
Veselý, Karel ; Ircing, Pavel (oponent) ; Lamel, Lori (oponent) ; Burget, Lukáš (vedoucí práce)
In this thesis, we first present the theory of neural network training for the speech recognition, along with our implementation, that is available as the 'nnet1' training recipe in the Kaldi toolkit. The recipe contains RBM pre-training, mini-batch frame Cross-Entropy training and sequence-discriminative sMBR training. Then we continue with the main topic of this thesis: semi-supervised training of DNN-based ASR systems. Inspired by the literature survey and our initial experiments, we investigated several problems: First, whether the confidences are better to be calculated per-sentence, per-word or per-frame. Second, whether the confidences should be used for data-selection or data-weighting. Both approaches are compatible with the framework of weighted mini-batch SGD training. Then we tried to get better insight into confidence calibration, more precisely whether it can improve the efficiency of semi-supervised training. We also investigated how the model should be re-tuned with the correctly transcribed data. Finally, we proposed a simple recipe that avoids a grid search of hyper-parameters, and therefore is very practical for general use with any dataset. The experiments were conducted on several data-sets: for Babel Vietnamese with 10 hours of transcribed speech, the Word Error Rate (WER) was reduced by 2.5%. For Switchboard English with 14 hours of transcribed speech, the WER was reduced by 3.2%. Although we found it difficult to further improve the performance of semi-supervised training by means of enhancing the confidences, we still believe that our findings are of significant practical value: the untranscribed data are abundant and easy to obtain, and our proposed solution brings solid WER improvements and it is not difficult to replicate.
Topic Identification from Spoken TED-Talks
Vašš, Adam ; Ondel, Lucas Antoine Francois (oponent) ; Kesiraju, Santosh (vedoucí práce)
This thesis deals with the problems of language recognition and topic classification, using TED-LIUM corpus to train both the ASR and classification models. The ASR system is built using the Kaldi toolkit, achieving the WER of 16.6%. The classification problem is addressed using linear classification methods, specifically Multinomial Naive Bayes and Linear Support Vector Machines, the latter method achieving higher topic classification accuracy.
Topic Identification from Spoken TED-Talks
Vašš, Adam ; Ondel, Lucas Antoine Francois (oponent) ; Kesiraju, Santosh (vedoucí práce)
This thesis deals with the problems of language recognition and topic classification, using TED-LIUM corpus to train both the ASR and classification models. The ASR system is built using the Kaldi toolkit, achieving the WER of 16.6\%. The classification problem is addressed using linear classification methods, specifically Multinomial Naive Bayes and Linear Support Vector Machines, the latter method achieving higher topic classification accuracy.
Rozpoznávání řeči pomocí KALDI
Plátek, Ondřej ; Jurčíček, Filip (vedoucí práce) ; Peterek, Nino (oponent)
Tématem této práce je implementace výkonného rozpoznávače v open-source systému trénování ASR Kaldi (http://kaldi.sourceforge.net/) pro dialogové systémy. Kaldi již obsahuje ASR dekodéry, které však nejsou vhodné pro dialogové systémy. Hlavními důvody jsou jejich malá optimalizace na rychlost a jejich velké zpoždění v generování výsledku po ukončení promluvy. Cílem této práce je proto vyvinutí real-time rozpoznávače pro dialogové systémy optimalizovaného na rychlost a minimalizujícího zpoždění. Zrychlení může být realizováno například pomocí multi-vláknového dekódování nebo s využitím grafických karet pro obecné výpočty. Součástí práce je také příprava akustického modelu a testování ve vyvíjeném dialogovém systému "Vystadial". Powered by TCPDF (www.tcpdf.org)
Development of a cloud platform for automatic speech recognition
Klejch, Ondřej ; Jurčíček, Filip (vedoucí práce) ; Bojar, Ondřej (oponent)
Tato diplomová práce představuje cloudovou platformu pro automatické rozpoznávání řeči, CloudASR, která je postavena na systému pro rozpoznávání řeči Kaldi. Platforma podporuje dávkový a online způsob rozpoznávání řeči a také obsahuje anotační prostředí pro přidávání přepisů k odeslaným nahrávkám. Mezi klíčové vlastnosti této platformy patří škálovatelnost, přizpůsobitelnost a jednoduchý proces nasazení. Provedená měření dokázala, že latence platformy je porovnatelná s latencí Google Speech API a přesnost přepisů na omezených doménách může být dokonce lepší. Dále bylo ukázáno, že je platforma schopná zpracovat více než 1000 paralelních dotazů, pokud má dostatek výpočetních zdrojů. 1
Zobrazení a analýza aktivit neuronové sítě ve skrytých vrstvách
Fábry, Marko ; Grézl, František (oponent) ; Karafiát, Martin (vedoucí práce)
Cílem této práce je vytvořit systém schopný zobrazení hodnot aktivačních funkcí neuronů nacházejících se v skrytých vrstvách neuronových sítí použitých na rozpoznávání řeči. Dále byly na tomto systému provedeny experimenty porovnávající vizualizační metody, vizualizace neuronových sítí s různými architekturami a s různými druhy vstupních dat. Vizualizační systém implementovaný v rámci této práce je založen na předchozí práci pana Khe Chai Sim a rozšířen o nové způsoby normalizace vstupních dat. Pro přípravu trénovacích dat neuronových sítí byl použit framework Kaldi. Pro samotné trénování neuronových sítí byl použit nový framework CNTK. Jádro práce - samotný vizualizační systém byl implementován v skriptovacím jazyce Python.
Rekurentní neuronové sítě pro rozpoznávání řeči
Nováčik, Tomáš ; Karafiát, Martin (oponent) ; Veselý, Karel (vedoucí práce)
Tato diplomová práce se zabývá implementací rekurentních neuronových sítí v prostředí jazyka lua za pomocí knihovny torch. Řeší problematiku trénování rekurentních neuronových sítí a to jak z hlediska optimální trénovací strategie, tak z hlediska urychlení trénovacího procesu. Zkoumá zakomponování technik batch normalizace a dropout do architektur rekurentních neuronových sítí. Jednotlivé typy rekurentních sítí jsou následně porovnány na úkolu rozpoznávání řeči prostřednictvým datové sady AMI, kde slouží pro modelování akustického modelu, a dochází ke srovnání s klasickou dopřednou neuronovou sítí. Nejlepší výsledek je dosažen prostřednictvým rekurentní neuronové sítě BLSTM. Následně dojde k natrénování rekurentních neuronových sítí prostřednictvím objektivní funkce CTC na databázi TIMIT, kde nejlepšího výsledku opět dosáhne BLSTM.
Klávesnice pomocí pohledu
Sznapka, Jakub ; Herout, Adam (oponent) ; Hradiš, Michal (vedoucí práce)
Cílem bakalářská práce je vytvoření nástroje pro psaní pohledem. Zabývá se problematikou snímání pohledu a jeho vyhodnocováním. Obsahuje popis metody Swype, která se používá při psaní na dotykových displejích. Následuje rozbor různých způsobů, pomocí kterých je možné modelovat jazyk, který nástroj používá. Hlavní část práce se věnuje samotnému návrhu nástroje, jenž umožňuje psaní pohledem a jeho implementaci za pomoci toolkitu Kaldi. 
Rozpoznávání řeči pro vybrané jazyky
Schmitt, Jan ; Karafiát, Martin (oponent) ; Janda, Miloš (vedoucí práce)
Tato práce se zabývá rozpoznáváním spojité řeči pro trojici jazyků bulharštinu, chorvatštinu a švédštinu. Zpráva popisuje základy zpracování a rozpoznávání řeči, tvorbu akustických modelů pomocí skrytých Markovových modelů a směsi gaussovských rozložení a použití těchto technik pro rozpoznávání řeči v toolkitu Kaldi. Další součástí práce je postup přípravy dat pro toolkity pro rozpoznávání řeči HTK a Kaldi na základě dat z databáze GlobalPhone. V závěru jsou vytvořené modely otestovány pomocí testovacích dat a porovnány výsledky z jednotlivých modelů.

Národní úložiště šedé literatury : Nalezeno 20 záznamů.   předchozí11 - 20  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.