National Repository of Grey Literature 14 records found  1 - 10next  jump to record: Search took 0.01 seconds. 
Controlling Mobile App by Voice
Cologna, Adam ; Szőke, Igor (referee) ; Herout, Adam (advisor)
The aim of this bachelor's thesis is to explore, analyze, and compare available libraries for controlling mobile applications with voice commands. According to the thesis requirements, I solved the problem primarily for the Android operating system. I have considered not only libraries for keyword detection but also those using the speech recognition technology. For the selected libraries, I conducted accuracy testing for voice command detection and performance testing. To facilitate the integration of the chosen libraries, an application was developed in the modern programming language Kotlin using Jetpack Compose. The main contribution of this work is the experiments carried out and the resulting recommendations regarding the examined libraries. Among the most effective solutions were those from Microsoft Azure and the Android Speech Recognizer class. The main obstacles for each library were the distance between the speaker and the microphone, as well as distracting background music.
Search in speech recordings based on semantic vectors
Boboš, Dominik ; Karafiát, Martin (referee) ; Schwarz, Petr (advisor)
V současné době přetížené informacemi jsou efektivní metody vyhledávání informací velice žádané. Tato práce shrnuje metody pro získávání vektorových reprezentací pro text a zvuk, známé také jako sémantické vektory. Podívali jsme se hlouběji na multimodální mo\-de\-ly, jako jsou SpeechT5 a SeamlessM4T, které transformují tyto typy vstupu do jednoho sdíleného vektorového prostoru. Na základě těchto modelů jsme vybudovali systém, který nám umožňuje vyhledávat v datech bez ohledu na modalitu. Abychom mohli vyhodnotit navrhované řešení, kromě standardního rozpoznávání klíčových slov, také pro úlohy sémantického vyhledávání, manuálně jsme označili datovou sadu pro zachycení podobných sémantických významů klíčových slov nebo frází. Nakonec jsme provedli několik experimentů, kde jsme prozkoumali možnosti modelů omezením pozorovaného kontextu během dotrénovaní neuronové sítě nebo zapojením systémů převodu textu na řeč (TTS) ke zlepšení celkového výkonu.
Query-by-Example Keyword Spotting
Skácel, Miroslav ; Hannemann, Mirko (referee) ; Szőke, Igor (advisor)
Tato diplomová práce se zabývá moderními přístupy detekce klíčových slov a detekce frází v řečových datech. V úvodní části je seznámení s problematikou a teoretický popis metod pro detekci. Následuje popis reprezentace vstupních datových sad použitých při experimentech a evaluaci. Dále jsou uvedeny metody pro detekci klíčových slov definovaných vzorem. Následně jsou popsány evaluační metody a techniky použité pro skórování. Po provedení experimentů na datových sadách a po evaluaci jsou diskutovány výsledky. V dalším kroku jsou navrženy a poté implementovány moderní postupy vedoucí k vylepšení systému pro detekci a opět je provedena evaluace a diskuze dosažených výsledků. V závěrečné části je práce zhodnocena a jsou zde navrženy další směy vývoje našeho systému. Příloha obsahuje manuál pro používání implementovaných skriptů.
Multimedia Browser for Lectures
Kubalík, Jakub ; Potúček, Igor (referee) ; Schwarz, Petr (advisor)
In preamble reader will understand the purpose of this project and why it was initiated. It's large team project, so description of its structure represents main part of this report. A core of the browser contain a lot of techniques, e.g. system of components, special internal communication and other. The main goals of this system are portability and reusability - there is exact specification of syntax rules and used data formats. Non-interchangeable role in project has format XML. Invention of new components was the last intervention in project, with intention to use of the project in future and involve in complex search engine - the engine discuss final part of report.
Keyword spotting
Zemánek, Tomáš ; Ošmera, Pavel (referee) ; Pfeifer, Václav (advisor)
This thesis is aimed on design keyword detector. The work contains a description of the methods that are used for these purposes and design of algorithm for keyword detection. The proposed detector is based on the method of DTW (Dynamic Time Warping). Analysis of the problem was performed on the module programmed in ANSI C, which was created within the thesis. The results of the detector were evaluated using the metrics WER (word error rate) and AUC (area under curve).
Optimization of Voice Recognition for Mobile Devices
Tomec, Martin ; Zbořil, František (referee) ; Hanáček, Petr (advisor)
This work deals with optimization of keyword spotting algorithms   on processor architecture ARM Cortex-A8. At first it describes this    architecture and especially the NEON unit for vector computing.   In addition it briefly describes keyword spotting algorithms and also there is proposed optimization of these algorithms for described architecture. Main part of this work is implementation of these optimizations and analysis of their impact on performance.
Protection of sensitive data contained in images
Mezina, Anzhelika ; Rajnoha, Martin (referee) ; Burget, Radim (advisor)
Tato bakalářská práce je zaměřena na využití hlubokého učení v bezpečnostním problému úniku citlivých informací ve formě obrazových dat. Pokusem o vyřešení tohoto problému bylo použití Single Shot Multibox Detectoru (SSD) a plně propojené sítě, poslední je mnohem rychlejší než jiné metody a může být použitá v praxi, kde je potřeba velmi rychlé analýzy příchozí a odchozí informace, například analýzy provozu sítě. V první části práce jsou popsané metody, které mohou být použité pro detekci klíčových slov. Druhá část obsahuje popis experimentu a dosažených výsledků pro dva modely neuronových sítí: Single Shot Multibox Detector a plně propojené sítě. Druhý model dosahuje uspokojivých vlastností jak z pohledu času zpracování tak i přesnosti a lze jej použít v praxi.
High Level Analysis of the Psychotherapy Sessions
Polok, Alexander ; Karafiát, Martin (referee) ; Matějka, Pavel (advisor)
This work focuses on analyzing psychotherapy sessions within the DeePsy research project. This work aims to design and develop features that model the session dynamics, which can reveal seemingly subtle nuances. The mentioned features are automatically extracted from the source recording using neural networks. They are further processed, compared across sessions, and displayed graphically, creating a document that acts as a feedback document about the session for the therapist. Furthermore, this assistive tool can help therapists to professionally grow and to provide better psychotherapy in the future. A relative improvement in voice activity detection of 37.82% was achieved. The VBx diarization system was generalized to converge to two speakers with a minimum relative error rate degradation of 0.66%. An automatic speech recognition system has been trained with a 17.06% relative improvement over the best available hybrid model. Models for sentiment classification, type of therapeutic interventions, and overlapping speech detection were also trained.
Protection of sensitive data contained in images
Mezina, Anzhelika ; Rajnoha, Martin (referee) ; Burget, Radim (advisor)
Tato bakalářská práce je zaměřena na využití hlubokého učení v bezpečnostním problému úniku citlivých informací ve formě obrazových dat. Pokusem o vyřešení tohoto problému bylo použití Single Shot Multibox Detectoru (SSD) a plně propojené sítě, poslední je mnohem rychlejší než jiné metody a může být použitá v praxi, kde je potřeba velmi rychlé analýzy příchozí a odchozí informace, například analýzy provozu sítě. V první části práce jsou popsané metody, které mohou být použité pro detekci klíčových slov. Druhá část obsahuje popis experimentu a dosažených výsledků pro dva modely neuronových sítí: Single Shot Multibox Detector a plně propojené sítě. Druhý model dosahuje uspokojivých vlastností jak z pohledu času zpracování tak i přesnosti a lze jej použít v praxi.
Multimedia Browser for Lectures
Kubalík, Jakub ; Potúček, Igor (referee) ; Schwarz, Petr (advisor)
In preamble reader will understand the purpose of this project and why it was initiated. It's large team project, so description of its structure represents main part of this report. A core of the browser contain a lot of techniques, e.g. system of components, special internal communication and other. The main goals of this system are portability and reusability - there is exact specification of syntax rules and used data formats. Non-interchangeable role in project has format XML. Invention of new components was the last intervention in project, with intention to use of the project in future and involve in complex search engine - the engine discuss final part of report.

National Repository of Grey Literature : 14 records found   1 - 10next  jump to record:
Interested in being notified about new results for this query?
Subscribe to the RSS feed.