Národní úložiště šedé literatury Nalezeno 36 záznamů.  1 - 10dalšíkonec  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Speech Technology Application in Pronunciation Training and Foreign Language Learning
Barotová, Štěpánka ; Žmolíková, Kateřina (oponent) ; Szőke, Igor (vedoucí práce)
This diploma thesis deals with automatic English pronunciation assessment and error detection based on the Dynamic Time Warping (DTW) algorithm. It focuses on the improvement of an existing pronunciation training application and it proposes three areas of improvement: user interface, algorithm and corrective feedback. After various methods used for pronunciation assessment are discussed in the first part, the new design is introduced, the proposed system is described and three sets of experiments are performed. The experiments focus on phoneme-level error detection, syllable-level primary stress error detection and word-level intonation assessment and they are designed to be able to provide corrective feedback to the user. The last part of the thesis describes how all three areas of improvement were tested.
Automatizovaná detekce ofenzivního jazyka a nenávistných projevů v přirozeném jazyce
Štajerová, Alžbeta ; Žmolíková, Kateřina (oponent) ; Fajčík, Martin (vedoucí práce)
Táto práca sa zaoberá fenoménom nenávistných prejavov a ofenzívneho jazyka, ich definíciami a detekciou. Popisuje metódy doterajšieho riešenia detekcie. Zhodnocuje dostupné dátové sady využiteľné pri trénovaní modelov zameraných na detekciu tohto fenoménu. Dáva si za cieľ uviesť ďalšie metódy riešenia detekcie tohto problému a porovnanie ich výsledkov a vyhodnotenie úspešnosti. Zvolený problém bol riešený piatimi modelmi. Dva z nich boli zamerané na extrakciu príznakov a ich následnú klasifikáciu. Ďalšie tri boli riešené pomocou neurónových sietí. Úspešnosť implementovaných modelov som experimentálne vyhodnotila. Výsledky tejto práce umožňujú porovnanie typických prístupov s metódami využívajúcimi najnovšie poznatky z oblasti strojového učenia použitých pre klasifikáciu nenávistného a ofenzívneho jazyka.
Interpretability of Neural Networks in Speech Processing
Sarvaš, Marek ; Mošner, Ladislav (oponent) ; Žmolíková, Kateřina (vedoucí práce)
With the growing popularity of deep neural networks, the lack of transparency caused by their black box representation is raising demand for their interpretability. The goal of this thesis is to gain new insights into deep neural networks in speech processing tasks. Specifically, gender classification task on AudioMNIST dataset and speaker classification task on filterbanks from VoxCeleb dataset using convolutional and residual neural network. Layer-wise relevance propagation was used for the interpretation of these neural networks. This method produced heatmaps highlighting features that contributed positively and negatively to the correct classification. As results of interpretation show, classifications were mainly based on lower frequencies in time. In the case of gender classification, I managed to find the model's high dependency on a small number of features. Using obtained information, I created an augmented training set that increased the model's robustness.
Recognition of Multi-Talker Overlapping Speech Using Neural Networks
Hradil, Jaromír ; Švec, Ján (oponent) ; Žmolíková, Kateřina (vedoucí práce)
This work deals with the speech recognition of overlapping speakers using a neural network. It examines the problem of speech recognition from multiple speakers and the ways in which this problem is solved. Specifically, in addition to traditional components such as convolutional neural networks, LSTM, etc., it is also an application of special components: attention mechanism and gated convolution. And also the application of a technique called permutation invariant training. Part of this work is to apply these approaches to assigned training data, which consists of artificially created mixtures of two speakers reading articles from the Wall Street Journal. The next step was to train the respective architectures using the combinations of the elements mentioned above. The models in this work replace the acoustic model. There were two architectures using different types of attention mechanism and one without it. Experiments have shown that architectures using the attention mechanism in this type of task have not surpassed more traditional architecture by suffering from gated convolution. Nevertheless, they showed potential.
Dereverberace založená na neuronových sítích
Karlík, Pavol ; Černocký, Jan (oponent) ; Žmolíková, Kateřina (vedoucí práce)
V posledných rokoch sa rozrástlo využitie neurónových sietí v oblasti spracovania reči. Táto bakalárska práca sa zaoberá implementáciou a vyhodnocovaním algoritmu na odstránenie dozvuku (reverberácie), ktorý využíva hlboké neurónové siete pre odhad výkonového spektra z rečovej nahrávky. Tento algoritmus je založený na najmodernejšom algoritme, Weighted prediction error (WPE), ktorý dokáže zredukovať reverberáciu z rečovej nahrávky. Táto práca obsahuje sumarizáciu teórie o dereverberácii, neurónových sieťach a algoritme WPE. V tejto práci sa experimentovalo s rôznymi architektúrami neurónových sietí, ktoré následne boli natrénované na rozdielnych dátových sadách s rôznymi vlastnosťami. Výsledky experimentov ukazujú, že naša modifikácia WPE dosahuje lepších výsledkov ako konvenčný algoritmus, a to najmä pre situácie, v ktorých je dĺžka spracovaného signálu krátka.
Změření vlivu akustiky prostředí na úspěšnost rozpoznávače řeči
Paliesek, Jakub ; Žmolíková, Kateřina (oponent) ; Szőke, Igor (vedoucí práce)
Táto bakalárska práca sa venuje sledovaniu vplyvu akustických parametrov na úspešnosť rozpoznávania reči. Použité rozpoznávače sú vyhodnotené na korpusoch Speecon, Temic a LibriSpeech. Porovnávané sú rôzne verzie týchto dát, ktoré vznikli retransmisiou v niekoľkých miestnostiach a umelou retransmisiou pomocou impulzných odoziev. Tie boli vytvorené metódami Exponential sine sweep (ESS) a Maximum length sequence (MLS) pre skutočné miestnosti a tiež pomocou metódy Image source model (ISM), ktorá generuje syntetické impulzné odozvy. Výstupom je porovnanie týchto spôsobov retransmisie. Pre metódu ESS je skúmaná úspešnosť rozpoznávania pre rôzne dĺžky excitačného signálu. Okrem toho je sledovaná závislosť úspešnosti rozpoznávania na vzájomnej polohe zdroja a prijímača, prítomnosti prekážok a smere mikrofónov.
Rozpoznávání řeči pro leteckou komunikaci
Žmolíková, Kateřina ; Burget, Lukáš (oponent) ; Veselý, Karel (vedoucí práce)
Tato bakalářská práce se zabývá rozpoznáváním řeči. Jejím cílem je postavit systém rozpoznávání řeči založený na neuronových sítích a otestovat jej na nahrávkách letecké komunikace. Výsledný akustický model bude použit v projektu A-PiMod. Postavený systém dosáhl na testovacích datech úspěšnost 29.5% WER. Dalším úkolem práce byly experimenty s neuronovými sítěmi, které jsou součástí akustického modelu. První experimenty zkoumaly možnost jejich zjednodušení a urychlení a dopad na úspěšnost rozpoznávání. Další se zabývaly aktivační funkcí rectifier a také konvolučními neuronovými sítěmi. V experimentech s konvolučními neuronovými sítěmi bylo dosáhnuto 1.5% zlepšení a dosáhly tak o 0.4% lepšího výsledku než plně propojená neuronová síť se stejnou architekturou.
Learning Speech Separation Using Spatial Cues
Pavlus, Ján ; Mošner, Ladislav (oponent) ; Žmolíková, Kateřina (vedoucí práce)
This thesis discusses the idea of using spatial cues in speech separation for estimating target masks, that is stated in article \textit{Bootstrapping single-channel source separation via unsupervised spatial clustering on stereo mixtures}. This idea may make it possible to use real-world mixtures for the training of speech separation systems, which use neural networks. In the thesis two training methods, permutation invariant training and deep clustering method are mentioned and used for experiments with training neural networks using target masks estimated by spatial cues. The result of the work is a comparison of the results of these experiments with the results of the above-mentioned article. This comparison showed that the use of estimated masks with the help of spatial information can lead to a quality training of the speaker separation system.
Speech Enhancement with Cycle-Consistent Neural Networks
Karlík, Pavol ; Černocký, Jan (oponent) ; Žmolíková, Kateřina (vedoucí práce)
Deep neural networks (DNNs) have become a standard approach for solving problems of speech enhancement (SE). The training process of a neural network can be extended by using a second neural network, which learns to insert noise into a clean speech signal. Those two networks can be used in combination with each other to reconstruct clean and noisy speech samples. This thesis focuses on utilizing this technique, called cycle-consistency. Cycle-consistency improves the robustness of a network without modifying the speech-enhancing neural network, as it exposes the SE network to a much larger variety of noisy data. However, this method requires input-target training data pairs, which are not always available. We use generative adversarial networks (GANs) with cycle-consistency constraint to train the network using unpaired data. We perform a large number of experiments using both paired and unpaired training data. Our results have shown that adding cycle-consistency improves the models' performance significantly.
Automatické hodnocení anglické výslovnosti nerodilých mluvčích
Gazdík, Peter ; Szőke, Igor (oponent) ; Žmolíková, Kateřina (vedoucí práce)
Výuka anglickej výslovnosti s využitím počítača sa v súčasnej dobe stáva čoraz viac populárnejšou. Napriek tomu presnosť týchto systémov je stále pomerne nízka. Táto diplomová práca sa preto zameriava na zlepšenie existujúcich metód automatického hodnotenia výslovnosti. V prvej časti práce je uvedený prehľad v súčasnosti používaných techník v tejto oblasti. Následne bol navrhnutý systém využívajúci dva rôzne prístupy. Dosiahnuté výsledky ukazujú znateľné zlepšenie oproti referenčnému systému.

Národní úložiště šedé literatury : Nalezeno 36 záznamů.   1 - 10dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.