Národní úložiště šedé literatury Nalezeno 16 záznamů.  1 - 10další  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Voice Dialog System in Web Browser for Demonstration Purposes
Vlček, Pavol ; Glembek, Ondřej (oponent) ; Schwarz, Petr (vedoucí práce)
This thesis describes how to prepare and design a voice-controlled assistant(voicebot), which can be deployed on any website as a modern way to communicate with customers using internet browsers. The main emphasis is put on synchronization between voice dialog and the graphical interface of the website. The synchronization can be achieved by transferring bidirectional voice and text commands between client and server. This is achieved by using WebRTC technology with SIP as a signaling protocol. The thesis deals with a wide range of protocols and technologies as well as interconnecting VoIP telephony, computer networks, and Phonexia speech technologies based on machine learning. As a result, deployment of the voicebot can reduce costs on outgoing calls, ease agents of a FAQ burden, and increase customers' interest in the product/company.
Nové techniky v oblasti trénování neuronových sítí - Connectionist temporal classification
Gajdár, Matúš ; Švec, Ján (oponent) ; Karafiát, Martin (vedoucí práce)
Táto bakalárska práca sa zaoberá problematikou neurónových sietí a ich využití v oblasti rozpoznávania reči. Na začiatok si priblížime teóriu rozpoznávania reči, následne na to nadväzuje problematika neurónových sietí spojená s vysvetlením metódy connectionist temporal classification. V ďalšej časti sú popísané nástroje vďaka ktorým sme mohli uskutočniť trénovanie neurónových sietí, spojené s popisom jednotlivých experimentov, ktoré sme spraviliaby sme zistili vplyv metódy connectionist temporal classification na presnosť predpovedania správnych foném. V záverečnej časti sa nachádza zhrnutie práce a celkové zhodnotenie experimentov.
Automatic speech recordings segmentation tool
Santa, Roman ; Zvončák, Vojtěch (oponent) ; Kováč, Daniel (vedoucí práce)
Automatic Segmentation tool processes recordings in order to extract voiced parts. It is important for further speech analysis to work only with extracted speech and not noise. For analysis of the difference between syllables of patients with parkinson disease and heatlhy ones, this segmentation tool should help with processing recordings. Goal of this thesis is to implement and test voice detectors with Google WebRTC detector and pick the best speech detector with minimal error rate. Also, develop a segmentation tool for given recordings and test voice recognition with dymanic time warping. Database from the Brain Diseases Analysis Laboratory was used. It contains czech and hungarian recordings with equal number of male and female as well as heathy and diseased patients. Energy detector performed as the best detetor in the tests. There was no significant difference in error rates between male and female or healthy and diseased patients. Recordings with lower Signal-to-Noise ratio were harder to process with an error rate starting at 12\%. Based on the results, new detector for the segmentation tool was proposed to process examined recordings. Finally, dynamic time warping algorithm was tested with mel frequency cepstral coefficients to recognize similarities between speakers.
Změření vlivu akustiky prostředí na úspěšnost rozpoznávače řeči
Paliesek, Jakub ; Žmolíková, Kateřina (oponent) ; Szőke, Igor (vedoucí práce)
Táto bakalárska práca sa venuje sledovaniu vplyvu akustických parametrov na úspešnosť rozpoznávania reči. Použité rozpoznávače sú vyhodnotené na korpusoch Speecon, Temic a LibriSpeech. Porovnávané sú rôzne verzie týchto dát, ktoré vznikli retransmisiou v niekoľkých miestnostiach a umelou retransmisiou pomocou impulzných odoziev. Tie boli vytvorené metódami Exponential sine sweep (ESS) a Maximum length sequence (MLS) pre skutočné miestnosti a tiež pomocou metódy Image source model (ISM), ktorá generuje syntetické impulzné odozvy. Výstupom je porovnanie týchto spôsobov retransmisie. Pre metódu ESS je skúmaná úspešnosť rozpoznávania pre rôzne dĺžky excitačného signálu. Okrem toho je sledovaná závislosť úspešnosti rozpoznávania na vzájomnej polohe zdroja a prijímača, prítomnosti prekážok a smere mikrofónov.
Multi-modální přepis textu
Kabáč, Michal ; Herout, Adam (oponent) ; Kišš, Martin (vedoucí práce)
Cieľom tejto práce je popísať a vytvoriť metódu pre korekciu výstupov rozpoznávača textu pomocou rozpoznávača reči. Práca popisuje prehľad súčasných metód pre rozpoznávanie textu a reči pomocou neurónových sietí. Popisuje tiež existujúce metódy prepájania výstupov dvoch modalít. V rámci práce je navrhnutých a implementovaných niekoľko prístupov pre korekciu rozpoznávačov, ktoré sú založené na algoritmoch, alebo neurónových sieťach. Ako najlepší prístup sa ukázal algoritmus založený na princípe prehľadávania výstupov rozpoznávačov zarovnaných pomocou levenshtainového zarovnania. Algoritmus prehľadáva výstupy v prípade že neistota znaku rozpoznávača textu je menšia ako predom zvolená hranica. V rámci práce bol ku textovým prepisom vytvorený anotačný server, pomocou ktorého sa robil zber nahrávok pre vyhodnotenie experimentov.
Fixed-point implementace rozpoznávače řeči
Král, Tomáš ; Černocký, Jan (oponent) ; Burget, Lukáš (vedoucí práce)
Táto diplomová práca sa zaoberá problematikou automatického rozpoznávania reči na systémoch s obmedzenými hardwarovými prostriedkami - embedded systems. Cieľom projektu je navrhnúť a implementovať systém rozpoznávania reči na embedded systémy, ktoré nedisponujú floating-point výpočetnými jednotkami. V prvom rade bola zvolená vhodná hardwarová architektúra a s ohľadom na dostupné prostriedky, ktorými vybraná architektúra disponuje, bolo navrhnuté riešenie rozpoznávania reči. Jednotlivé časti systému rozpoznávania boli následne v priebehu vývoja optimalizované do takej podoby, aby mohli byť nasadené na zvolený HW. Výsledkom práce je dosiahnutie rozpoznávania českých čísloviek na embedded systéme.
Implementace jednoduchého rozpoznávače řeči pro Android
Čuba, Eduard ; Glembek, Ondřej (oponent) ; Szőke, Igor (vedoucí práce)
Cieľom projektu je vytvoriť jednoduchý rozpoznávač reči pre platformu Android. Práca rozoberá základné komponenty rozpoznávača reči a venuje sa technikám, ktoré boli použité pre optimalizáciu procesu rozpoznávača reči na zariadeniach so systémom Anrdoid. Ako prvá je popísaná teória extrakcie akustických príznakov, odhadu posteriórnych pravdepodobností fonémov a dynamického dekódovania. Následnej je popísaný dizajn a implementácia dekodéra, ktorý prevádza sériu rečových príznakov na text, za použitia obmedzených výpočetných prostriedkov mobilného zariadenia. Implementácia je rozdelená do modulov tvoriacich knižnicu, ktorú je možno jednoducho rozšíriť, či integrovať do požadovanej aplikácie. Do rozpoznávača je taktiež možné dodať vlastné modely, ktoré môžu byť navrhnuté a natrénované pre konkrétne použitie. V experimentoch sme skúmali rôzne prístupy ku modelovaniu abstraktných dátových štruktúr pre reprezentáciu rozpoznávacej siete tak. V závere práca rozoberá potencionálne smery budúceho vývoja a aplikácií tohoto projektu.
Vliv akustiky prostředí na úspěšnost rozpoznávače řeči
Paliesek, Jakub ; Karafiát, Martin (oponent) ; Szőke, Igor (vedoucí práce)
Táto diplomová práca sa venuje vplyvom akustiky miestnosti na úspešnosť rozpoznávania reči. Na vyhodnotenie experimentov bol použitý rečový korpus LibriSpeech a databáza impulzných odoziev a šumu ReverbDB. Skúmané rozpoznávače reči boli založené na Kaldi recepte Mini LibriSpeech. Najskôr bolo zmerané, ako sa rozpoznávač dokáže naučiť rozpoznávať vo vybraných prostediach použitím rovnakých akustických podmienok pri trénovaní aj testovaní. Následne bolo experimentované s architektúrou systému s cieľom dosiahnuť čo najlepšiu robustnosť voči rôznym novým podmienkam za použitia metód pre adaptáciu na prostredie pomocou r-vektorov a i-vektorov. Bol ukázaný prínos nedávno predstavenej techniky r-vektorov aj pri použití augmentácie dát pomocou reálnych impulných odoziev.
Multi-modální přepis textu
Kabáč, Michal ; Herout, Adam (oponent) ; Kišš, Martin (vedoucí práce)
Cieľom tejto práce je popísať a vytvoriť metódu pre korekciu výstupov rozpoznávača textu pomocou rozpoznávača reči. Práca popisuje prehľad súčasných metód pre rozpoznávanie textu a reči pomocou neurónových sietí. Popisuje tiež existujúce metódy prepájania výstupov dvoch modalít. V rámci práce je navrhnutých a implementovaných niekoľko prístupov pre korekciu rozpoznávačov, ktoré sú založené na algoritmoch, alebo neurónových sieťach. Ako najlepší prístup sa ukázal algoritmus založený na princípe prehľadávania výstupov rozpoznávačov zarovnaných pomocou levenshtainového zarovnania. Algoritmus prehľadáva výstupy v prípade že neistota znaku rozpoznávača textu je menšia ako predom zvolená hranica. V rámci práce bol ku textovým prepisom vytvorený anotačný server, pomocou ktorého sa robil zber nahrávok pre vyhodnotenie experimentov.
Voice Dialog System in Web Browser for Demonstration Purposes
Vlček, Pavol ; Glembek, Ondřej (oponent) ; Schwarz, Petr (vedoucí práce)
This thesis describes how to prepare and design a voice-controlled assistant(voicebot), which can be deployed on any website as a modern way to communicate with customers using internet browsers. The main emphasis is put on synchronization between voice dialog and the graphical interface of the website. The synchronization can be achieved by transferring bidirectional voice and text commands between client and server. This is achieved by using WebRTC technology with SIP as a signaling protocol. The thesis deals with a wide range of protocols and technologies as well as interconnecting VoIP telephony, computer networks, and Phonexia speech technologies based on machine learning. As a result, deployment of the voicebot can reduce costs on outgoing calls, ease agents of a FAQ burden, and increase customers' interest in the product/company.

Národní úložiště šedé literatury : Nalezeno 16 záznamů.   1 - 10další  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.