National Repository of Grey Literature 36 records found  1 - 10nextend  jump to record: Search took 0.00 seconds. 
Speech Technology Application in Pronunciation Training and Foreign Language Learning
Barotová, Štěpánka ; Žmolíková, Kateřina (referee) ; Szőke, Igor (advisor)
Tato diplomová práce pojednává o využití algoritmu Dynamic Time Warping (DTW) pro automatické hodnocení výslovnosti anglického jazyka. Práce se zaměřuje na vylepšení již existující aplikace pro výuku výslovnosti, a to ve třech oblastech: uživatelské rozhraní, samotný algoritmus a korektivní zpětná vazba uživateli. První část se věnuje přehledu technik používaných v této oblasti, následně je představen nový design uživatelského rozhraní, popsán navržený systém a experimenty. Experimenty se zaměřují na problematiku detekce chyb na úrovni fonémů, na detekci chyb v primárním důrazu na úrovni slabik a na hodnocení intonace na úrovni slov. Všechny použité metody jsou navrženy tak, aby poskytovaly korektivní zpětnou vazbu uživateli. V poslední části je popsáno, jak byly všechny tři vylepšené oblasti aplikace otestovány.
Automated Detection of Hate Speech and Offensive Language
Štajerová, Alžbeta ; Žmolíková, Kateřina (referee) ; Fajčík, Martin (advisor)
This thesis discusses hate speech and offensive language phenomenon, their respective definitions and their occurrence in natural language. It describes previously used methods of solving the detection. An evaluation of available data sets suitable for the problem of detection is provided. The thesis aims to provide additional methods of solving the detection of this issue and it compares the results of these methods. Five models were selected in total. Two of them are focused on feature extraction and the remaining three are neural network models.  I have experimentally evaluated the success of the implemented models. The results of this thesis allow for comparison of the typical approaches with the methods leveraging the newest findings in terms of machine learning that are used for the classification of hate speech and offensive language.
Interpretability of Neural Networks in Speech Processing
Sarvaš, Marek ; Mošner, Ladislav (referee) ; Žmolíková, Kateřina (advisor)
S rastúcou popularitou hlbokých neurónových sietí, nedostatok transparentnosti spôsobenejich funkciou čiernej skrinky, zvyšuje dopyt po ich interpretácii. Cieľom tejto práce je získať nový pohľad na hlboké neurónové siete v úlohách spracovania reči. Konkrétne klasifikácia pohlavia z AudioMNIST datasetu a klasifikácia rečníka z filter bánk VoxCeleb datasetu s použitím konvolučnej a reziduálnej neurónovej siete. Na interpretáciu týchto neurónových sietí bola použitá metóda propagácie relevancií cez vrstvy. Táto metóda vytvorí tepelnú mapu, ktorá vyznačí príznaky, ktoré prispeli ku správnej klasifikácii pozitívne a ktoré negatívne. Ako výsledky interpretácie ukazujú, klasifikácie boli založené najmä na nižších frekvenciách v reči a čase. V prípade klasifikácie pohlavia sa mi podarilo nájsť vysokú závislosť modelu na veľmi malom počte príznakov. Pomocou získaných informácií som vytvoril rozšírený trénovací set, ktorý zvýšil robustnosť modelu.
Recognition of Multi-Talker Overlapping Speech Using Neural Networks
Hradil, Jaromír ; Švec, Ján (referee) ; Žmolíková, Kateřina (advisor)
Tato práce se zabývá rozpoznáváním řeči překrývajících se řečníků pomocí neuronové sítě. Zkoumá  problém rozpoznávání řečí od vícero řečníků a způsoby, jimiž se tento daný problém řeší. Jedná se konkrétně o aplikaci kromě tradičních komponentů jako konvoluční neuronové sítě, LSTM atd. také speciálních komponentů: attention mechanismus a gated konvoluce. A dále také aplikace techniky zvanou permutation invariant training. Součástí této práce je aplikování těchto přístupů na přidělená trénovací data, která jsou tvořena uměle vytvořenými směsmi dvou řečníků předčítající články z Wall Street Journal. Dalším krokem bylo natrénování příslušných architektur používající kombinující prvky zmíněné nahoře. Modely v této práci nahrazují akustický model. Jednalo se o dvě architektury užívající různé typy attention mechanismu a o jednu bez něj.  Experimenty ukázaly, že architektury užívající attention mechanismus v tomto typu úlohy něpřekonaly tradičnější architekturu s užitím gated konvolucí. Přesto ale ukázaly potenciál.
Neural Network Based Dereverberation
Karlík, Pavol ; Černocký, Jan (referee) ; Žmolíková, Kateřina (advisor)
In the past years, the usage of neural networks in speech processing has increased significantly. This thesis focuses on implementing and evaluating a speech dereverberation framework that utilizes a deep neural network (DNN) to estimate the power spectral density of the signal. The proposed framework is based on the state-of-the-art speech enhancement algorithm called Weighted prediction error (WPE), which is known to effectively reduce reverberation from the speech signal. This thesis summarizes the theory of dereverberation, neural networks and the Weighted prediction error algorithm. Different DNN architectures are experimented with and trained using different datasets with varying properties. The results have shown that our framework is able to outperform the conventional WPE, especially in situations where duration of processed signal is short.
Measurment of Impact of Environment Acoustics on Speech Recognition Accuracy
Paliesek, Jakub ; Žmolíková, Kateřina (referee) ; Szőke, Igor (advisor)
This bachelor thesis deals with investigation of impacts of acoustical parameters on automatic speech recognition (ASR) accuracy. Used ASRs were evaluated on Speecon, Temic and LibriSpeech corpuses. This work includes comparison of different versions of these data, which were created using retransmission in several rooms and artificial retransmission using impulse responses. These were created using methods Exponential sine sweep (ESS) and Maximum length sequence (MLS) for real rooms, as well as using Image source model (ISM) method, which generates artificial impulse responses. Output of the thesis is comparison of these types of retransmission. For ESS method, ASR accuracy for different lengths of the excitation signal is examined. Furthermore, the impact of relative position between source and receiver, presence of barriers and directionality of microphones is studied.
Speech Recognition for Air Traffic Communication
Žmolíková, Kateřina ; Burget, Lukáš (referee) ; Veselý, Karel (advisor)
This thesis deals with speech recognition. The aim is to build a speech recognition system based on neural networks and test it on recordings of air traffic communication. Final acoustic model will be used in project A-PiMod. The system reached word error rate 29.5%. Next task of this thesis was to experiment with neural networks which are part of acoustic model. First experiments explored its simplification and acceleration and its impact on error rate. Next experiments dealt with activation function rectifier and convolutional neural networks. Experiments with convolutional neural networks achieved 1.5% improvement, so the final result was 0.4% better than fully connected network with the same architecture.
Learning Speech Separation Using Spatial Cues
Pavlus, Ján ; Mošner, Ladislav (referee) ; Žmolíková, Kateřina (advisor)
Tahle práce pojednává o~možnosti použití prostorových informací pro odhadnutí masek pro cíle, které je uvedeno v~článku \textit{Bootstrapping single-channel source separation via unsupervised spatial clustering on stereo mixtures}. Tahle myšlenka umožňuje použití neumělých náhrávek směsice signálů pro trénování systémů separace řečníků, které používají neuronové sítě. V~práci jsou zmíněny dvě trénovací metotody a to permutačně invariantní trénování a dále pak metoda deep clustering. Tyto metody jsou použity pro experimenty s~trénováním neuronových sítí s~použítím masek cílů, které jsou odhadnuty pomocí prostorové informace. Výsledkem práce je porovnání výsledků těchto experimentů s~výsledky výše zmíněného článku. Tohle porovnání ukázalo, že použití odhadnutých masek za pomoci prostorových informací, může vést ke kvalitnímu natrénování systému separace řečníků.
Speech Enhancement with Cycle-Consistent Neural Networks
Karlík, Pavol ; Černocký, Jan (referee) ; Žmolíková, Kateřina (advisor)
Hlboké neurónové siete sa bežne používajú v oblasti odstraňovania šumu. Trénovací proces neurónovej siete je možné rožšíriť využitím druhej neurónovej siete, ktorej cieľom je vložiť šum do čistej rečovej nahrávky. Tieto dve siete sa môžu spolu využiť k rekonštrukcii pôvodných čistých a zašumených nahrávok. Táto práca skúma efektivitu tejto techniky, zvanej cyklická konzistencia. Cyklická konzistencia zlepšuje robustnosť neurónovej siete bez toho, aby sa daná sieť akokoľvek modifikovala, nakoľko vystavuje sieť na odstraňovanie šumu rôznorodejšiemu množstvu zašumených dát. Avšak, táto technika vyžaduje trénovacie dáta skladajúce sa z párov vstupných a referenčných nahrávok. Tieto dáta niesu vždy dostupné. Na trénovanie modelov s nepárovanými dátami využívame generatívne neurónové siete s cyklickou konzistenciou. V tejto práci sme vykonali veľké množstvo experimentov s modelmi trénovanými na párovaných a nepárovaných dátach. Naše výsledky ukazujú, že využitie cyklickej konzistencie výrazne zlepšuje výkonnosť modelov.
Automatic Pronunciation Evaluation of Non-Native English Speakers
Gazdík, Peter ; Szőke, Igor (referee) ; Žmolíková, Kateřina (advisor)
Computer-Assisted Pronunciation Training (CAPT) is becoming more and more popular these days. However, the accuracy of existing CAPT systems is still quite low. Therefore, this diploma thesis focuses on improving existing methods for automatic pronunciation evaluation on the segmental level. The first part describes common techniques for this task. Afterwards, we proposed the system based on two approaches. Finally, performed experiments show significant improvement over the reference system.

National Repository of Grey Literature : 36 records found   1 - 10nextend  jump to record:
Interested in being notified about new results for this query?
Subscribe to the RSS feed.