Národní úložiště šedé literatury Nalezeno 38 záznamů.  předchozí9 - 18dalšíkonec  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Rekurentní neuronové sítě pro rozpoznávání řeči
Nováčik, Tomáš ; Karafiát, Martin (oponent) ; Veselý, Karel (vedoucí práce)
Tato diplomová práce se zabývá implementací rekurentních neuronových sítí v prostředí jazyka lua za pomocí knihovny torch. Řeší problematiku trénování rekurentních neuronových sítí a to jak z hlediska optimální trénovací strategie, tak z hlediska urychlení trénovacího procesu. Zkoumá zakomponování technik batch normalizace a dropout do architektur rekurentních neuronových sítí. Jednotlivé typy rekurentních sítí jsou následně porovnány na úkolu rozpoznávání řeči prostřednictvým datové sady AMI, kde slouží pro modelování akustického modelu, a dochází ke srovnání s klasickou dopřednou neuronovou sítí. Nejlepší výsledek je dosažen prostřednictvým rekurentní neuronové sítě BLSTM. Následně dojde k natrénování rekurentních neuronových sítí prostřednictvím objektivní funkce CTC na databázi TIMIT, kde nejlepšího výsledku opět dosáhne BLSTM.
Adaptace jazykového modelu na cílovou doménu využívající stahování veřejných dat
Gregušová, Sabína ; Švec, Ján (oponent) ; Karafiát, Martin (vedoucí práce)
Cieľom práce je implementovať systém pre automatickú adaptáciu jazykového modelu pre Phonexia ASR systém. Systém prijíma vstupný súbor, ktorý analyzuje a vyberie vhodné výrazy pre webové vyhľadávanie. Každé webové vyhľadávanie prináša množinu dokumentov, ktoré podstupujú čistenie a filtrovanie. Výsledný webový korpus sa zmieša s Phonexia modelom a vykoná sa evaluácia. Pre odhad optimálnych parametrov boli vykonané viaceré experimenty pre hindštinu, češtinu a mandarínsku čínštinu. Výsledky experimentov boli pozitívne a implementovaný systém bol schopný znížiť perplexitu a Word Error Rate vo väčšine experimentov.
Automatická identifikace klíčových slov
Mašláňová, Marcela ; Karafiát, Martin (oponent) ; Smrž, Pavel (vedoucí práce)
Tato práce si klade za cíl zpracovat poznatky o značkování klíčových slov v textu a využít je v praxi pro automatické generování rejstříků. Důvodem pro automatizaci tvorby rejstříků je jejich vysoká náročnost a cena. Teoretická část práce se zabývá především metodami hledání vícenásobných výrazů, které jsou významné pro zpracovávaný text. Praktická část aplikuje vybrané metody na testovací data a shrnuje výsledky experimentů.
Multi-Task Neural Networks for Speech Recognition
Egorova, Ekaterina ; Veselý, Karel (oponent) ; Karafiát, Martin (vedoucí práce)
The first part of this Master's thesis covers theoretical investigation into the principles and usage of neural networks, including their usability for the speech recognition tasks. Then it proceeds to summarize the multi-task neural networks' operating principles and some recent experiments with them. The practical part of the semester project reports changes made to a tool for neural network training which support multi-task training. Then the preparation of the settings is described, including a number of scripts written especially for this purpose. The experiments presented in the thesis explore the idea of using articulatory characteristics of phonemes as secondary tasks for multi-task training. The experiments are conducted on two different datasets of different quality and size and representing different languages - English and Vietnamese. Articulatory characteristics are occasionally combined with different secondary tasks, such as context, to see how well they function together. A comparison is made between the networks of different sizes to see how their size affects the effectiveness of multi-task training. These experiments show that multi-task training with the use of articulatory characteristics as secondary tasks can enhance training and yield better phoneme accuracy as a result. Finally, multi-task training is embedded to a speech recognition system as a feature extractor.
Zobrazení a analýza aktivit neuronové sítě ve skrytých vrstvách
Fábry, Marko ; Grézl, František (oponent) ; Karafiát, Martin (vedoucí práce)
Cílem této práce je vytvořit systém schopný zobrazení hodnot aktivačních funkcí neuronů nacházejících se v skrytých vrstvách neuronových sítí použitých na rozpoznávání řeči. Dále byly na tomto systému provedeny experimenty porovnávající vizualizační metody, vizualizace neuronových sítí s různými architekturami a s různými druhy vstupních dat. Vizualizační systém implementovaný v rámci této práce je založen na předchozí práci pana Khe Chai Sim a rozšířen o nové způsoby normalizace vstupních dat. Pro přípravu trénovacích dat neuronových sítí byl použit framework Kaldi. Pro samotné trénování neuronových sítí byl použit nový framework CNTK. Jádro práce - samotný vizualizační systém byl implementován v skriptovacím jazyce Python.
Rozpoznávač řeči řízený gramatikami
Škorvaga, Vojtěch ; Karafiát, Martin (oponent) ; Schwarz, Petr (vedoucí práce)
Tato práce popisuje vytvoření systému pro sestavení rozpoznávací sítě pro rozpoznávač mluvené řeči na základě Speech Recognition Grammar Specification (SRGS) gramatiky definované W3C konsorciem. Rozpoznávač byl spolu s tímto modulem integrován do softwarové ústředny FreeSWitch pomocí kombinace síťových protokolů MRCPv2/SIP/RTP a testován. Práce byla řešená ve spolupráci s firmou Phonexia s.r.o.
Vliv akustiky prostředí na úspěšnost rozpoznávače řeči
Paliesek, Jakub ; Karafiát, Martin (oponent) ; Szőke, Igor (vedoucí práce)
Táto diplomová práca sa venuje vplyvom akustiky miestnosti na úspešnosť rozpoznávania reči. Na vyhodnotenie experimentov bol použitý rečový korpus LibriSpeech a databáza impulzných odoziev a šumu ReverbDB. Skúmané rozpoznávače reči boli založené na Kaldi recepte Mini LibriSpeech. Najskôr bolo zmerané, ako sa rozpoznávač dokáže naučiť rozpoznávať vo vybraných prostediach použitím rovnakých akustických podmienok pri trénovaní aj testovaní. Následne bolo experimentované s architektúrou systému s cieľom dosiahnuť čo najlepšiu robustnosť voči rôznym novým podmienkam za použitia metód pre adaptáciu na prostredie pomocou r-vektorov a i-vektorov. Bol ukázaný prínos nedávno predstavenej techniky r-vektorov aj pri použití augmentácie dát pomocou reálnych impulných odoziev.
Low-Dimensional Matrix Factorization in End-To-End Speech Recognition Systems
Gajdár, Matúš ; Grézl, František (oponent) ; Karafiát, Martin (vedoucí práce)
The project covers automatic speech recognition with neural network training using low-dimensional matrix factorization. We are describing time delay neural networks with factorization (TDNN-F) and without it (TDNN) in Pytorch language. We are comparing the implementation between Pytorch and Kaldi toolkit, where we achieve similar results during experiments with various network architectures. The last chapter describes the impact of a low-dimensional matrix factorization on End-to-End speech recognition systems and also a modification of the system with TDNN(-F) networks. Using specific network settings, we were able to achieve better results with systems using factorization. Additionally, we reduced the complexity of training by decreasing network parameters with the use of TDNN(-F) networks.
Diarizace meetingové řeči - Kdo mluví kdy
Tůma, Radovan ; Konečný, Matej (oponent) ; Karafiát, Martin (vedoucí práce)
Tato práce obsahuje návrh diarizačního systému. Systém je postaven na bázi BIC (Bayesian Information Criterion). Ve zprávě naleznete stručný popis dříve vyvíjených systémů a stručnou teorii popisující, jak by diarizační systém měl pracovat. Práce se pokouší zohlednit dřívejších prací jiných autorů a výsledkem by měl být systém s některými vylepšeními. Vylepšení se zaměřují zejména na rychlejší segmentaci s minimální ztrátou přesnosti a co nejpřesnější clustering.  
Voice Activity Detection
Ent, Petr ; Karafiát, Martin (oponent) ; Matějka, Pavel (vedoucí práce)
This thesis deals with usage Support Vector Machines (SVM) for Speech Activity Detection (SAD). The first part of the thesis deals with comparison of different feature extractions and different methods of construction supervectors for classifying speech using SVM. The second part presents SVM based SAD system. All experiments were performed on ERT broadcast new database. Final comparison with two other approaches (phoneme and GMM based) was done on standard NIST 2006 Rich Test Evaluation database.

Národní úložiště šedé literatury : Nalezeno 38 záznamů.   předchozí9 - 18dalšíkonec  přejít na záznam:
Viz též: podobná jména autorů
3 Karafiát, Michal
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.