National Repository of Grey Literature 11 records found  1 - 10next  jump to record: Search took 0.01 seconds. 
Semi-Supervised Speech-to-Text Recognition with Text-to-Speech Critic
Baskar, Murali Karthick ; Manohar, Vimal (referee) ; Trmal, Jan (referee) ; Burget, Lukáš (advisor)
Modely pro automatické rozpoznávání řeči (ASR) vyžadují pro dosažení přijatelné přesnosti velké množství trénovacích dat. Z tohoto důvodu se v poslední době zvýšil zájem o trénování seq2seq modelů bez dohledu a s částečným dohledem. Tato práce vychází z nedávných výsledků, které ukázaly výrazné zlepšení trénování s částečným dohledem pomocí cyklické konzistence a souvisejících technik. Ty využívají trénovací postupy a kritéria schopná pomocí kombinace ASR s modely převodu textu na řeč (TTS) zužitkovat nesouvisející řečová a/nebo textová data.  Tato práce nejprve navrhuje nový rámec pro modelování kombinující diferencovatelné end-to-end kritérium ASR->TTS s kritériem TTS->ASR. Tato metoda dokáže využít nesouvisející řečová a textová data a překonat související techniky ve slovní chybovosti (WER). Práce obsahuje rozsáhlou sadu výsledků analyzujících vliv množství dat i vliv podílu řeči a textu na opravách chyb. Výsledky dokládají konzistentní zlepšení na korpusech WSJ a LibriSpeech.   Práce se rovněž zabývá omezeními modelu ASR<->TTS v podmínkách mimo doménu trénovacích dat (out-of-domain). Navrhujeme vylepšený model ASR<->TTS (EAT), zahrnující dva klíčové komponenty: 1) směr ASR->TTS je doplněn jazykovým model, který penalizuje hypotézy ASR před jejich vstupem do TTS; a 2) ve směru TTS->ASR je zavedena regularizace trénovaná bez dohledu tak, aby opravovala syntetizovanou řeč před vstupem do modelu ASR. Zkoumáme strategie trénování a účinnost modelu EAT a porovnáme jej s přístupy umělého zvyšování množství (augmentace) dat. Výsledky ukazují, že model EAT snižuje rozdíl v úspěšnosti mezi trénováním bez dohledu a trénováním s částečným dohledem absolutně o 2,6% WER na LibriSpeech datech a o 2,7% WER na BABEL datech.
Integration of Voice Technologies on Mobile Platforms
Černičko, Sergij ; Černocký, Jan (referee) ; Schwarz, Petr (advisor)
The goal of the thesis is being familiar with methods a techniques used in speech processing. Describe the current state of research and development of speech technology. Project and implement server speech recognizer that uses BSAPI. Integrate client that will use server for speech recognition to mobile dictionaries of Lingea company.
Finite State Grammars and Language Models for Automatic Speech Recognition
Beneš, Karel ; Glembek, Ondřej (referee) ; Hannemann, Mirko (advisor)
Tato práce se zabývá transformací bezkontextových gramatik na váhované konečně stavové převodníky. Je vybrána podmnožina bezkontextových gramatik, kterou lze tranformovat přesně. Je představen test, zda daná gramatika naleží do této podmnožiny, i algoritmus převodu. Dále je popsán vlastní nástroj, který tyto postupy implementuje, včetně způsobu zpracování vstupu a výstupu. S použitím toho nástroje byl vytvořen systém rozpoznání řeči pro kokpit letadla. Jsou představeny výsledky ukazující, že systém založený na takto získaném modelu jazyka podává výrazně lepší výkon, než je dosažen při použití obecného modelu.
Finite-state based recognition networks for forward-backward speech decoding
Hannemann, Mirko ; AD, Ralf Schlüter, (referee) ; Novák,, Miroslav (referee) ; Burget, Lukáš (advisor)
Pomocí matematického formalismu váhovaných konečných stavových převodníků (weighted finite state transducers WFST) může být formulována řada úloh včetně automatického rozpoznávání řeči (automatic speech recognition ASR). Dnešní ASR systémy široce využívají složených pravděpodobnostních modelů nazývaných dekódovací grafy nebo rozpoznávací sítě. Ty jsou z jednotlivých komponent konstruovány pomocí WFST operací, např. kompozice. Každá komponenta je zde zdrojem znalostí a omezuje vyhledávání nejlepší cesty ve složeném grafu v operaci zvané dekódování. Využití koherentního teoretického rámce garantuje, že výsledná struktura bude optimální podle definovaného kritéria. WFST mohou být v rámci daného polookruhu (semi-ring) optimalizovány pomocí determinizace a minimalizace. Aplikací těchto algoritmů získáme optimální strukturu pro prohledávání, optimální distribuce vah je pak získána aplikací "weight pushing" algoritmu. Cílem této práce je zdokonalit postupy a algoritmy pro konstrukci optimálních rozpoznávacích sítí. Zavádíme alternativní weight pushing algoritmus, který je vhodný pro důležitou třídu modelů -- převodníky jazykového modelu (language model transducers) a obecně pro všechny cyklické WFST a WFST se záložními (back-off) přechody. Představujeme také způsob konstrukce rozpoznávací sítě vhodné pro dekódování zpětně v čase, které prokazatelně produkuje ty samé pravděpodobnosti jako dopředná síť. K tomuto účelu jsme vyvinuli algoritmus pro exaktní reverzi back-off jazykových modelů a převodníků, které je reprezentují. Pomocí zpětných rozpoznávacích sítí optimalizujeme dekódování: ve statickém dekodéru je využíváme pro dvoustupňové dekódování (dopředné a zpětné vyhledávání). Tento přístup --- "sledovací" dekódování (tracked decoding) --- umožnuje zahrnout výsledky vyhledávání z prvního stupně do druhého stupně tak, že se sledují hypotézy obsažené v rozpoznávacím grafu (lattice) prvního stupně. Výsledkem je podstatné zrychlení dekódování, protože tato technika umožnuje prohledávat s  variabilním prohledávacím paprskem (search beam) -- ten je povětšinou mnohem užší než u základního přístupu. Ukazujeme rovněž, že uvedenou techniku je možné využít v dynamickém dekodéru tím, že postupně zjemňujeme rozpoznávání. To navíc vede i k částečné paralelizaci dekódování.
Analýza videozáznamov správ z oblasti finančných trhov
Mikula, Michal
This work deals with the analysis of video recordings of reports from the field of financial markets. Many media from the financial sphere more and more often publish information via video or even prefer this format in some cases. Manual analysis of these videos is very time-consuming. The work therefore deals with the creation of a tool enabling their automatic analysis. The work deals with two main areas. The first area is automatic speech recognition for obtaining transcripts of videos and the second area is natural language processing for performing text analysis on a given video. Text analysis includes sentiment analysis, text summarization and key phrase extraction.
Out-of-Vocabulary Words Detection and Recovery
Egorova, Ekaterina ; Hannemann, Mirko (referee) ; Schaaf, Thomas (referee) ; Černocký, Jan (advisor)
Tato disertační práce zkoumá oblast zpracování slov mimo slovník (out-of-vocabulary word, OOV) v rámci úlohy automatického rozpoznávání řeči (automatic speech recognition, ASR). Definuje dvě samostatné úlohy zpracování OOV - detekci a obnovu - a pro obě úlohy navrhuje metriky úspěšnosti. Prezentuje několik přístupů k detekci a obnově OOV v rámci hybridních a end-to-end (E2E) ASR systémů. Experimentální práce a srovnání přístupů bylo provedeno na otevřené databázi LibriSpeech, aby byla zajištěna reprodukovatelnost experimentů.  Hybridní přístup využívá upravený dekódovací graf s fonémovými podřetězci a pro detekci a obnovu opakujících se OOV využívá reprezentaci založenou na plných rozpoznávacích grafech (lattices). Obnovená OOV jsou přidána do slovníku a jazykového modelu (LM), což vede ke zlepšení úspěšnosti ASR systému. Druhý přístup využívá k řešení úlohy detekce OOV vnitřní reprezentace systému E2E architektury "Listen Attend and Spell" (LAS) s predikcí slov. Tato metoda oproti hybridnímu přístupu výrazně zlepšuje míru úplnosti a přesnosti (recall a precision). Obnova opakujících se OOV se provádí pomocí samostatného systému predikce znaků s využitím detekovaných časových rámců a pravděpodobnostního shlukování.Nakonec navrhujeme novou "speller" architekturu se schopností učit se reprezentace OOV společně s trénováním sítě pro predikci slov (word predicting network, WPN). Komponent "speller" ovlivňuje během trénování slovní embeddingy tak, aby dobře reprezentovaly i fonetickou podobu slov, a tím zajišťuje nejen možnost kvalitní obnovy OOV, ale i zlepšení výkonu sítě pro predikci slov.
Finite-state based recognition networks for forward-backward speech decoding
Hannemann, Mirko ; AD, Ralf Schlüter, (referee) ; Novák,, Miroslav (referee) ; Burget, Lukáš (advisor)
Pomocí matematického formalismu váhovaných konečných stavových převodníků (weighted finite state transducers WFST) může být formulována řada úloh včetně automatického rozpoznávání řeči (automatic speech recognition ASR). Dnešní ASR systémy široce využívají složených pravděpodobnostních modelů nazývaných dekódovací grafy nebo rozpoznávací sítě. Ty jsou z jednotlivých komponent konstruovány pomocí WFST operací, např. kompozice. Každá komponenta je zde zdrojem znalostí a omezuje vyhledávání nejlepší cesty ve složeném grafu v operaci zvané dekódování. Využití koherentního teoretického rámce garantuje, že výsledná struktura bude optimální podle definovaného kritéria. WFST mohou být v rámci daného polookruhu (semi-ring) optimalizovány pomocí determinizace a minimalizace. Aplikací těchto algoritmů získáme optimální strukturu pro prohledávání, optimální distribuce vah je pak získána aplikací "weight pushing" algoritmu. Cílem této práce je zdokonalit postupy a algoritmy pro konstrukci optimálních rozpoznávacích sítí. Zavádíme alternativní weight pushing algoritmus, který je vhodný pro důležitou třídu modelů -- převodníky jazykového modelu (language model transducers) a obecně pro všechny cyklické WFST a WFST se záložními (back-off) přechody. Představujeme také způsob konstrukce rozpoznávací sítě vhodné pro dekódování zpětně v čase, které prokazatelně produkuje ty samé pravděpodobnosti jako dopředná síť. K tomuto účelu jsme vyvinuli algoritmus pro exaktní reverzi back-off jazykových modelů a převodníků, které je reprezentují. Pomocí zpětných rozpoznávacích sítí optimalizujeme dekódování: ve statickém dekodéru je využíváme pro dvoustupňové dekódování (dopředné a zpětné vyhledávání). Tento přístup --- "sledovací" dekódování (tracked decoding) --- umožnuje zahrnout výsledky vyhledávání z prvního stupně do druhého stupně tak, že se sledují hypotézy obsažené v rozpoznávacím grafu (lattice) prvního stupně. Výsledkem je podstatné zrychlení dekódování, protože tato technika umožnuje prohledávat s  variabilním prohledávacím paprskem (search beam) -- ten je povětšinou mnohem užší než u základního přístupu. Ukazujeme rovněž, že uvedenou techniku je možné využít v dynamickém dekodéru tím, že postupně zjemňujeme rozpoznávání. To navíc vede i k částečné paralelizaci dekódování.
Neural networks for automatic speaker, language, and sex identification
Do, Ngoc ; Jurčíček, Filip (advisor) ; Peterek, Nino (referee)
Title: Neural networks for automatic speaker, language, and sex identifica- tion Author: Bich-Ngoc Do Department: Institute of Formal and Applied Linguistics Supervisor: Ing. Mgr. Filip Jurek, Ph.D., Institute of Formal and Applied Linguistics and Dr. Marco Wiering, Faculty of Mathematics and Natural Sciences, University of Groningen Abstract: Speaker recognition is a challenging task and has applications in many areas, such as access control or forensic science. On the other hand, in recent years, deep learning paradigm and its branch, deep neural networks have emerged as powerful machine learning techniques and achieved state-of- the-art in many fields of natural language processing and speech technology. Therefore, the aim of this work is to explore the capability of a deep neural network model, recurrent neural networks, in speaker recognition. Our pro- posed systems are evaluated on TIMIT corpus using speaker identification task. In comparison with other systems in the same test conditions, our systems could not surpass reference ones due to the sparsity of validation data. In general, our experiments show that the best system configuration is a combination of MFCCs with their dynamic features and a recurrent neural network model. We also experiment recurrent neural networks and convo- lutional neural...
Development of speech enabled web games using CloudASR
Milota, Jan ; Jurčíček, Filip (advisor) ; Vidová Hladká, Barbora (referee)
The main goal of this thesis is to design and implement a piece of software for playful language learning, using web technologies and the fresh CloudASR library. A common user interacts with their web browser almost exclusively using a mouse and keyboard. Thanks to the software this thesis represents the user has an opportunity to delve into sometimes unpopular language learning process using his natural voice. This fact presents new and exciting possibilities, mainly regarding user interactivity. A lot of stress has been put to user friendliness, graphical fidelity and to the competitive aspect of language education, exploiting Facebook integration and point-scoring leader boards. Powered by TCPDF (www.tcpdf.org)
Finite State Grammars and Language Models for Automatic Speech Recognition
Beneš, Karel ; Glembek, Ondřej (referee) ; Hannemann, Mirko (advisor)
Tato práce se zabývá transformací bezkontextových gramatik na váhované konečně stavové převodníky. Je vybrána podmnožina bezkontextových gramatik, kterou lze tranformovat přesně. Je představen test, zda daná gramatika naleží do této podmnožiny, i algoritmus převodu. Dále je popsán vlastní nástroj, který tyto postupy implementuje, včetně způsobu zpracování vstupu a výstupu. S použitím toho nástroje byl vytvořen systém rozpoznání řeči pro kokpit letadla. Jsou představeny výsledky ukazující, že systém založený na takto získaném modelu jazyka podává výrazně lepší výkon, než je dosažen při použití obecného modelu.

National Repository of Grey Literature : 11 records found   1 - 10next  jump to record:
Interested in being notified about new results for this query?
Subscribe to the RSS feed.