Národní úložiště šedé literatury Nalezeno 134 záznamů.  začátekpředchozí51 - 60dalšíkonec  přejít na záznam: Hledání trvalo 0.04 vteřin. 
Automatická tvorba titulků k filmu rozpoznávačem řeči
Csintalan, György ; Plchot, Oldřich (oponent) ; Schwarz, Petr (vedoucí práce)
Tato bakalářská práce popisuje vývoj aplikace pro automatickou tvorbu titulků k filmům pomocí BSAPI (Brno Speech Application Interface). V úvodní části, je čtenář uveden do problematiky a jsou naznačeny cíle práce. Následuje popis teoretického základu zpracování řeči a popis rozpoznávače a jeho API (BSAPI). Dále je uveden způsob extrakce zvukové stopy z videa z teoretického hlediska. V nasledující části jsou popsány principy zpracování výstupu rozpoznávače a vytvoření titulků. V další kapitole je popsána tvorba aplikáce z implementačního hlediska. Dále následuje popis experimentů vykonaných v různych situacích a jsou navrženy další možné způsoby zlepšení kvůli dosáhnutí kvalitnejšího výstupu, například filtrování zvuku pomocí Wienerova filtru. V závěrečné části jsou rozebrány dosáhnuté výsledky a získané zkušenosti.
Zpracování signálů pomocí skrytých Markovových modelů
Hampl, Jindřich ; Pfeifer, Václav (oponent) ; Sigmund, Milan (vedoucí práce)
Jedna z nejpoužívanějších metod pro rozpoznávání řeči je založena na skrytých Markovových modelech. Jedna z nejpoužívanějších metod pro rozpoznávání řeči je založena na Markovových modelech. Řečový signál můžeme považovat za sled po sobě jdoucích částí signálu s specifickými statistickými parametry. Skrytý Markovův model odpovídá statistickému modelu s konečným počtem stavů, který může být užitečný pro signály, jako je například řeč. Modul HTK je soubor programů, který je nejvíce používán pro práci se skrytými Markovovými modely.
Vliv akustiky prostředí na úspěšnost rozpoznávače řeči
Paliesek, Jakub ; Karafiát, Martin (oponent) ; Szőke, Igor (vedoucí práce)
Táto diplomová práca sa venuje vplyvom akustiky miestnosti na úspešnosť rozpoznávania reči. Na vyhodnotenie experimentov bol použitý rečový korpus LibriSpeech a databáza impulzných odoziev a šumu ReverbDB. Skúmané rozpoznávače reči boli založené na Kaldi recepte Mini LibriSpeech. Najskôr bolo zmerané, ako sa rozpoznávač dokáže naučiť rozpoznávať vo vybraných prostediach použitím rovnakých akustických podmienok pri trénovaní aj testovaní. Následne bolo experimentované s architektúrou systému s cieľom dosiahnuť čo najlepšiu robustnosť voči rôznym novým podmienkam za použitia metód pre adaptáciu na prostredie pomocou r-vektorov a i-vektorov. Bol ukázaný prínos nedávno predstavenej techniky r-vektorov aj pri použití augmentácie dát pomocou reálnych impulných odoziev.
STATISTICAL LANGUAGE MODELS BASED ON NEURAL NETWORKS
Mikolov, Tomáš ; Zweig, Geoffrey (oponent) ; Hajič,, Jan (oponent) ; Černocký, Jan (vedoucí práce)
Statistical language models are crucial part of many successful applications, such as automatic speech recognition and statistical machine translation (for example well-known Google Translate). Traditional techniques for estimating these models are based on Ngram counts. Despite known weaknesses of N-grams and huge efforts of research communities across many fields (speech recognition, machine translation, neuroscience, artificial intelligence, natural language processing, data compression, psychology etc.), N-grams remained basically the state-of-the-art. The goal of this thesis is to present various architectures of language models that are based on artificial neural networks. Although these models are computationally more expensive than N-gram models, with the presented techniques it is possible to apply them to state-of-the-art systems efficiently. Achieved reductions of word error rate of speech recognition systems are up to 20%, against stateof-the-art N-gram model. The presented recurrent neural network based model achieves the best published performance on well-known Penn Treebank setup.
Far-Field Speech Recognition
Žmolíková, Kateřina ; Malenovský, Vladimír (oponent) ; Černocký, Jan (vedoucí práce)
The accuracy of speech recognition systems today is very high. However, when speech is captured by a far-field microphone, it can be severely distorted by noise and reverberation and the performance of speech recognition degrades significantly. One way to alleviate this problem is to use microphone arrays. This thesis addresses the methods of combining signals from multiple microphones to improve the quality of the signal and final speech recognition accuracy. It summarizes the theory of speech recognition and the most popular techniques for array processing. Afterwards, it demonstrates and analyzes the results obtained by two different methods for beamforming and a method for dereverberation of multichannel signals. Finally, it examines an alternative way of performing beamforming using neural networks.
Semi-Supervised Training of Deep Neural Networks for Speech Recognition
Veselý, Karel ; Ircing, Pavel (oponent) ; Lamel, Lori (oponent) ; Burget, Lukáš (vedoucí práce)
In this thesis, we first present the theory of neural network training for the speech recognition, along with our implementation, that is available as the 'nnet1' training recipe in the Kaldi toolkit. The recipe contains RBM pre-training, mini-batch frame Cross-Entropy training and sequence-discriminative sMBR training. Then we continue with the main topic of this thesis: semi-supervised training of DNN-based ASR systems. Inspired by the literature survey and our initial experiments, we investigated several problems: First, whether the confidences are better to be calculated per-sentence, per-word or per-frame. Second, whether the confidences should be used for data-selection or data-weighting. Both approaches are compatible with the framework of weighted mini-batch SGD training. Then we tried to get better insight into confidence calibration, more precisely whether it can improve the efficiency of semi-supervised training. We also investigated how the model should be re-tuned with the correctly transcribed data. Finally, we proposed a simple recipe that avoids a grid search of hyper-parameters, and therefore is very practical for general use with any dataset. The experiments were conducted on several data-sets: for Babel Vietnamese with 10 hours of transcribed speech, the Word Error Rate (WER) was reduced by 2.5%. For Switchboard English with 14 hours of transcribed speech, the WER was reduced by 3.2%. Although we found it difficult to further improve the performance of semi-supervised training by means of enhancing the confidences, we still believe that our findings are of significant practical value: the untranscribed data are abundant and easy to obtain, and our proposed solution brings solid WER improvements and it is not difficult to replicate.
Voice commands recognition in audiosignal
Šrámek, Martin ; Grepl, Robert (oponent) ; Krejsa, Jiří (vedoucí práce)
You are holding in your hands the Bachelor thesis which deals with design and realizing of isolated voice recognition system. The motivation of this thesis was an interest in remote control of robotic mechanisms by voice and a research of speech signal processing. It is widely developed these days. The thesis is divided into two parts. The first one is concerned with summarizing of recognition knowledge, in the second one this knowledge is used in design of a system.
Rozhraní pro zobrazování radarových dat a propojení se simulátorem řízení leteckého provozu
Buchníčková, Tereza ; Ondřej, Karel (oponent) ; Smrž, Pavel (vedoucí práce)
Cílem této práce je vytvořit aplikaci pro výuku začínajících pracovníků řízení letového provozu. Systém je implementován jako webová aplikace v jazyce JavaScript s použitím knihoven JQuery a Leaflet. Serverová část je napsána v jazyce Python a využívá knihovnu BlueSky pro simulaci letového provozu. Práce obsahuje teoretickou část, návrh řešení a popis implementace. Výsledkem je aplikace, která nabízí zobrazení aktuálního letového provozu nebo v ní uživatel v roli řídícího letového provozu může na simulovaném letovém provozu trénovat komunikaci s pilotem. Aplikace umožňuje nahrávání hlasové komunikace a pomocí propojení se systémem rozpoznání řeči tuto komunikaci převádí do textu, který se zobrazuje na obrazovce. Kromě podpory výuky pracovníků letového provozu tato aplikace také slouží jako demonstrace výsledků výzkumných skupin KnoT a Speech z Fakulty informačních technologií VUT v Brně.
Hlasové ovládání průmyslových a medicínských zařízení v rušných prostředích
Vymětalíková, Lucie ; Matoušek, Radomil (oponent) ; Dobrovský, Ladislav (vedoucí práce)
Tato diplomová práce se zabývá hlasovým ovládáním průmyslových a medicínských zařízení v rušných prostředích. Porovnány jsou různé modely rozpoznávání řeči i metody pro odstraňování hluku z řečových signálů. Na základě rešerše i vlastních testování je sestaven vlastní systém hlasového ovládání. Systém je složen z modelu pro detekci vzbouzecí fráze a modelu pro rozpoznávání předem nadefinovaných příkazů. Implementována je v systému i audio odezva pro operátora a spouštění skriptů dle rozpoznaných příkazů. Navržena byla také úprava laboratorního boxu OpenTube2 pro automatické otevírání.
Analýza entit v psychoterapeutických sezeních
Polok, Alexander ; Karafiát, Martin (oponent) ; Matějka, Pavel (vedoucí práce)
Tato práce se zabývá analýzou psychoterapeutických sezení v rámci výzkumného projektu DeePsy. Jejím cílem je navrhnout a vytvořit sadu příznaků modelujících průběh sezení, jež mohou odhalit na první pohled nepatrné nuance. Zmíněné příznaky jsou automaticky extrahovány ze zdrojové nahrávky s využitím hlubokých neuronových sítí. Příznaky jsou zpracovány, porovnány napříč sezeními a graficky zobrazeny, čímž vzniká dokument plnící roli zpětné vazby o sezení pro terapeuta. Tato zpětná vazba může posloužit k profesnímu růstu a kvalitnější psychoterapii v budoucnu. Bylo dosaženo relativního zlepšení detekce řečové aktivity o 37,82 %. Byl zobecněn diarizační systém VBx ke konvergenci ke dvěma mluvčím s minimálním relativním zhoršením chybovosti o 0,66 %. Byl natrénován systém pro automatické rozpoznávání řeči, jehož chybovost je o 17,06 % relativně lepší než nejlepší dostupný hybridní model. Dále byly natrénovány systémy pro klasifikaci sentimentu, typu terapeutických intervencí a detekci překrývající se řeči.

Národní úložiště šedé literatury : Nalezeno 134 záznamů.   začátekpředchozí51 - 60dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.