Národní úložiště šedé literatury Nalezeno 134 záznamů.  začátekpředchozí31 - 40dalšíkonec  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Rozpoznávání řeči s pomocí nástroje Sphinx-4
Kryške, Lukáš ; Uher, Václav (oponent) ; Burget, Radim (vedoucí práce)
Tato diplomová práce se zabývá hledáním efektivní techniky pro strojové rozpoznávání řeči, konkrétně pak strojovým přepisem mluvené řeči do textu a následným hledáním klíčových slov. Toto řešení lze následně použit pro analýzy telefonních hovorů nebo jiné podobné aplikace. Celá diplomová práce se věnuje nástroji Sphinx-4 pro strojové rozpoznávání řeči, který využívá k popisu akustických modelů skrytých Markovových modelů (HMM – Hidden Markov Model). Práce detailně vysvětluje, jak takové modely připravit pro nový jazyk nebo dialekt jazyka a jak tyto modely softwarově implementovat v jazyce Java.
Rozšířeni funkčnosti přístroje LaiPen
Trtílek, Jakub ; Šandera, Josef (oponent) ; Hejátková, Edita (vedoucí práce)
Cílem bakalářské práce je rozšíření funkčnosti přístroje LaiPen LP 100 o hlasové rozhraní tak, aby bylo uživateli usnadněno během práce s přístrojem zadávání názvů dřevin. Manuální výběr typu porostu u stávající verze přístroje je v praxi využíván zřídka z důvodu časové náročnosti. Výběr, začlenění a naprogramování hlasového modulu EasyVR 2.0 bylo tématem mé práce. Dále pak návrh ovládacího menu a kompletní integrace modulu do přístroje. Pro začlenění modulu do přístroje LaiPen bylo zapotřebí navrhnout modul, který bude zprostředkovávat komunikaci mezi procesorem a hlasovým modulem. Práce se tedy zabývá také návrhem převodníku druhů komunikace I2C/UART. Pro tento převodník byl vybrán mikrokontrolér Max3109, pro který bylo zapotřebí naprogramovat hlavní ovládací funkce.
Automatic speech recordings segmentation tool
Santa, Roman ; Zvončák, Vojtěch (oponent) ; Kováč, Daniel (vedoucí práce)
Automatic Segmentation tool processes recordings in order to extract voiced parts. It is important for further speech analysis to work only with extracted speech and not noise. For analysis of the difference between syllables of patients with parkinson disease and heatlhy ones, this segmentation tool should help with processing recordings. Goal of this thesis is to implement and test voice detectors with Google WebRTC detector and pick the best speech detector with minimal error rate. Also, develop a segmentation tool for given recordings and test voice recognition with dymanic time warping. Database from the Brain Diseases Analysis Laboratory was used. It contains czech and hungarian recordings with equal number of male and female as well as heathy and diseased patients. Energy detector performed as the best detetor in the tests. There was no significant difference in error rates between male and female or healthy and diseased patients. Recordings with lower Signal-to-Noise ratio were harder to process with an error rate starting at 12\%. Based on the results, new detector for the segmentation tool was proposed to process examined recordings. Finally, dynamic time warping algorithm was tested with mel frequency cepstral coefficients to recognize similarities between speakers.
Mining of Textual Data from the Web for Speech Recognition
Kubalík, Jakub ; Plchot, Oldřich (oponent) ; Mikolov, Tomáš (vedoucí práce)
The preliminary goals of this project were to get familiar with language modeling for speech recognition and techniques for acquisition of text data from the Web. Speech recognition techniques are introduced and statistical language modeling is described in detail. The text also covers mining models and techniques, information retrieval especially. Specific problems of Web mining are discussed and Google search is introduced. Special attention was paid to detailed description of implementation of the text mining system. However, the main goal of this work was to determine, whether the data acquired from the Web can provide some improvement into the recognition systems. The text is describing experiments, which use the retrieved Web data to update sample language models.
Změření vlivu akustiky prostředí na úspěšnost rozpoznávače řeči
Paliesek, Jakub ; Žmolíková, Kateřina (oponent) ; Szőke, Igor (vedoucí práce)
Táto bakalárska práca sa venuje sledovaniu vplyvu akustických parametrov na úspešnosť rozpoznávania reči. Použité rozpoznávače sú vyhodnotené na korpusoch Speecon, Temic a LibriSpeech. Porovnávané sú rôzne verzie týchto dát, ktoré vznikli retransmisiou v niekoľkých miestnostiach a umelou retransmisiou pomocou impulzných odoziev. Tie boli vytvorené metódami Exponential sine sweep (ESS) a Maximum length sequence (MLS) pre skutočné miestnosti a tiež pomocou metódy Image source model (ISM), ktorá generuje syntetické impulzné odozvy. Výstupom je porovnanie týchto spôsobov retransmisie. Pre metódu ESS je skúmaná úspešnosť rozpoznávania pre rôzne dĺžky excitačného signálu. Okrem toho je sledovaná závislosť úspešnosti rozpoznávania na vzájomnej polohe zdroja a prijímača, prítomnosti prekážok a smere mikrofónov.
Textově závislé rozpoznávání mluvčího
Fux, Jan ; Glembek, Ondřej (oponent) ; Matějka, Pavel (vedoucí práce)
Cílem této bakalářské práce bylo navrhnout systém pro textově závislé rozpoznávání mluvčího. Bylo otestováno několik přístupů na databázi MIT, která obsahuje nahrávky průměrné délky 0,46s. Z otestovaných přístupů se jeví jako nejlepší kombinace systému DTW s využitím odhadu posteriorních pravděpodobností fonémů (posteriogramu) jako výstupu z Fonémového rozpoznávače, a akustického SID systému založeného na iVektorech a PLDA (Probabilistic Linear Component Analysis). Fúze těchto dvou systémů pomocí Neuronové sítě dosahuje nejlepších výsledků (EER) a to 17,84% pro ženy a 16,38% pro muže, což je relativní zlepšení 49,9% u žen a 54,2% u mužů oproti samostatnému akustickému rozpoznávání.
Dekodér pro systém detekce klíčových slov
Krotký, Jan ; Míča, Ivan (oponent) ; Pfeifer, Václav (vedoucí práce)
Práce seznamuje čtenáře se základními vlastnostmi rozpoznávání lidské řeči, popisuje systémy pro detekci klíčových slov a blíže se věnuje návrhu jednotlivých bloků dekodéru rozdělených do tří kapitol. První z nich popisuje operace, které jsou se signálem prováděny před rozdělením na rámce, i samotnou segmentaci. Druhá kapitola popisuje výpočet krátkodobé energie, počtu průchodů nulou a výpočet autokorelačních, predikčních a Melovských kepstrálních koeficientů. Třetí kapitola, která se zabývá návrhem bloku dekodéru, popisuje rozpoznávání pomocí metody dynamického borcení času a metody založené na skrytých Markovových modelech. V závěrečné části práce je popsán návrh dekodérů pracujících s plynulou řeči a návrh jednoduchého dekodéru pracujícího s izolovanými slovy, který je na základě předcházejících kapitol sestrojen a otestován.
Rozpoznávání řeči pro leteckou komunikaci
Žmolíková, Kateřina ; Burget, Lukáš (oponent) ; Veselý, Karel (vedoucí práce)
Tato bakalářská práce se zabývá rozpoznáváním řeči. Jejím cílem je postavit systém rozpoznávání řeči založený na neuronových sítích a otestovat jej na nahrávkách letecké komunikace. Výsledný akustický model bude použit v projektu A-PiMod. Postavený systém dosáhl na testovacích datech úspěšnost 29.5% WER. Dalším úkolem práce byly experimenty s neuronovými sítěmi, které jsou součástí akustického modelu. První experimenty zkoumaly možnost jejich zjednodušení a urychlení a dopad na úspěšnost rozpoznávání. Další se zabývaly aktivační funkcí rectifier a také konvolučními neuronovými sítěmi. V experimentech s konvolučními neuronovými sítěmi bylo dosáhnuto 1.5% zlepšení a dosáhly tak o 0.4% lepšího výsledku než plně propojená neuronová síť se stejnou architekturou.
Multi-Task Neural Networks for Speech Recognition
Egorova, Ekaterina ; Veselý, Karel (oponent) ; Karafiát, Martin (vedoucí práce)
The first part of this Master's thesis covers theoretical investigation into the principles and usage of neural networks, including their usability for the speech recognition tasks. Then it proceeds to summarize the multi-task neural networks' operating principles and some recent experiments with them. The practical part of the semester project reports changes made to a tool for neural network training which support multi-task training. Then the preparation of the settings is described, including a number of scripts written especially for this purpose. The experiments presented in the thesis explore the idea of using articulatory characteristics of phonemes as secondary tasks for multi-task training. The experiments are conducted on two different datasets of different quality and size and representing different languages - English and Vietnamese. Articulatory characteristics are occasionally combined with different secondary tasks, such as context, to see how well they function together. A comparison is made between the networks of different sizes to see how their size affects the effectiveness of multi-task training. These experiments show that multi-task training with the use of articulatory characteristics as secondary tasks can enhance training and yield better phoneme accuracy as a result. Finally, multi-task training is embedded to a speech recognition system as a feature extractor.
Optimalizace rozpoznávání řeči pro mobilní zařízení
Tomec, Martin ; Zbořil, František (oponent) ; Hanáček, Petr (vedoucí práce)
Práce se zabývá optimalizací algoritmů pro detekci klíčových slov na procesorové architektuře ARM Cortex-A8. Nejprve je popsána tato architektura a zejména její jednotka NEON pro vektorové výpočty. Dále jsou stručně popsány algoritmy pro detekci klíčových slov a navržena jejich optimalizace pro danou architekturu. Jádro práce tvoří implementace těchto optimalizací a zhodnocení jejich vlivu na výkon.

Národní úložiště šedé literatury : Nalezeno 134 záznamů.   začátekpředchozí31 - 40dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.