National Repository of Grey Literature 16 records found  1 - 10next  jump to record: Search took 0.00 seconds. 
Improving Robustness of Speaker Recognition using Discriminative Techniques
Novotný, Ondřej ; Ferrer, Luciana (referee) ; Pollák, Petr (referee) ; Černocký, Jan (advisor)
Tato práce pojednává o využití diskriminativních technik v oblasti rozpoznávání  mluvčích za účelem získání větší robustnosti těchto systémů vůči vlivům negativně ovlivňující jejich výkonnost. Mezi tyto vlivy řadíme šum, reverberaci nebo přenosový kanál. Práce je rozdělena do dvou hlavních částí. V první části se věnujeme teoretickému úvodu do problematiky rozpoznávání mluvčích. Popsány jsou  jednotlivé kroky rozpoznávacího systému od extrakce akustických příznaků, extrakce vektorových reprezentací nahrávek, až po tvorbu finálního rozpoznávacího skóre. Zvláštní důraz je věnován technikám extrakce vektorové reprezentace nahrávky, kdy popisujeme dvě rozdílná paradigmata možného přístupu, i-vektory a x-vektory. Druhá část práce se již více věnuje diskriminativním technikám pro zvýšení robustnosti. Techniky jsou organizovány tak, aby odpovídaly postupnému průchodu nahrávky rozpoznávacím systémem.  Nejdříve je věnována pozornost  předzpracování signálu pomocí neuronové sítě pro odšumění a obohacení signálu řeči jako univerzální technice, která je nezávislá na následně použitém rozpoznávacím systému.  Dále se zameřujeme na využití diskriminativního přístupu při extrakci příznaků a extrakci vektorových reprezentací nahrávek. Práce rovněž pokrývá přechod od generativního paradigmatu k plně diskriminativnímu přístupu v systémech pro rozpoznávání mluvčích.  Veškeré techniky jsou následně vždy experimentálně ověřeny a zhodnocen jejich přínos. V práci je navrženo několik přístupů, které se osvědčily jak u generativního přístupu v podobě i-vektorů, tak i u diskriminativních x-vektorů, a díky nim bylo dosaženo významného zlepšení. Pro úplnost jsou, v oblasti problematiky robustnosti, do práce zařazeny i další techniky, jako je normalizace skóre, či více-scénářové trénování systémů. Závěrem se práce zabývá problematikou robustnosti diskriminativních systému z pohledu dat využitých při jejich trénování.
Multi-channel Methods of Speech Enhancement
Zitka, Adam ; Balík, Miroslav (referee) ; Smékal, Zdeněk (advisor)
This thesis deals with multi-channel methods of speech enhancement. Multichannel methods of speech enhancement use a few microphones for recording signals. From mixtures of signals, for example, individual speakers can be separated, noise should be reduced etc. with using neural networks. The task of separating speakers is known as a cocktail-party effect. The main method of solving this problem is called independent component analysis. At first there are described its theoretical foundation and presented conditions and requirements for its application. Methods of ICA try to separate the mixtures with help of searching the minimal gaussian properties of signals. For the analysis of independent components are used different mathematical properties of signals such as kurtosis and entropy. Signals, which were mixed artificially on a computer, can be relatively well separated using, for example, FastICA algorithm or ICA gradient ascent. However, difficult is situation, if we want to separate the signals created in the real recording enviroment, because the separation of speech people speaking at the same time in the real environment affects other various factors such as acoustic properties of the room, noise, delays, reflections from the walls, the position or the type of microphones, etc. Work presents aproach of independent component analysis in the frequency domain, which can successfully separate also recordings made in the real environment.
Robust Audio Dereverberation and Denoising
Košina, Simon ; Skácel, Miroslav (referee) ; Szőke, Igor (advisor)
The goal of this thesis was to create a speech enhancement and dereverberation model for audio recordings coming from aircraft VHF communication. First, the thesis covers some theoretical grounds of machine learning and types of neural networks commonly used in such scenarios. Following is a description of the used framework, datasets and the implementation itself. Last chapters are focused on the performed experiments and their evaluation. At the end we talk about the future work that can be done in order to further improve the achieved results.
Subjective and Objective Assessment of Speech Quality
Bezdíček, Martin ; Balík, Miroslav (referee) ; Vondra, Martin (advisor)
This Bachelor's thesis is focused on subjective and objective methods for evaluation of speech quality. In the first part, the quality of transmitted speech signal and its distorting effects are given. Futher, subjective and objective methods for evaluation of speech are described. The objective methods: Signal to Noise Ratio (SNR), Segmental Signal to Noise Ratio (SSNR), the methods for evaluation in spectral area (Log Likelihood Ratio Measures and Cepstral Distance) and also Perceptual Evaluation of Speech Quality (PESQ). The next part deals with the correlation analysis which is used for the comparison of subjective and objective methods. In the last part of the bachelor thesis the results of subjective and objective methods are presented. Finally on the basis of correlation analysis with the results of subjective method, the best objective method is recommended.
Analysis of impact of noise in recordings on the automated detection of hypokinetic dysarthria
Havelková, Nikola ; Galáž, Zoltán (referee) ; Kováč, Daniel (advisor)
This thesis deals with the automated detection of hypokinetic dysarthria by analysing the influence of noise present in recordings. Appropriate single-channel methods, specifically the spectral subtraction and Kalman filter, are selected and implemented in the MATLAB R2022a to enhance speech. These methods are also used for noise-free recordings, to which additive white noise was added. Afterwards, the effectiveness of these methods is objectively evaluated by using signal-to-noise ratio values. After enhancing of speech, interferences are extracted from the recordings. The effect of the presence of noise, as well as its subsequent suppression by individual methods, is then evaluated by statistical analysis, specifically using the Kruskal-Wallis test and the post hoc Dunn’s test. The probability of distributing parameters of clean, noisy and enhanced recordings, for which the effect of noise is significant, according to statistical tests, are plotted using violin and box graphs. Finally, the classification was done by logistic regression with the help of machine learning, where the effect of the presence of noise and subsequent speech enhancement on automated detection of hypokinetic dysarthria was described according to the area values under the ROC curve.
Speech Enhancement with Cycle-Consistent Neural Networks
Karlík, Pavol ; Černocký, Jan (referee) ; Žmolíková, Kateřina (advisor)
Hlboké neurónové siete sa bežne používajú v oblasti odstraňovania šumu. Trénovací proces neurónovej siete je možné rožšíriť využitím druhej neurónovej siete, ktorej cieľom je vložiť šum do čistej rečovej nahrávky. Tieto dve siete sa môžu spolu využiť k rekonštrukcii pôvodných čistých a zašumených nahrávok. Táto práca skúma efektivitu tejto techniky, zvanej cyklická konzistencia. Cyklická konzistencia zlepšuje robustnosť neurónovej siete bez toho, aby sa daná sieť akokoľvek modifikovala, nakoľko vystavuje sieť na odstraňovanie šumu rôznorodejšiemu množstvu zašumených dát. Avšak, táto technika vyžaduje trénovacie dáta skladajúce sa z párov vstupných a referenčných nahrávok. Tieto dáta niesu vždy dostupné. Na trénovanie modelov s nepárovanými dátami využívame generatívne neurónové siete s cyklickou konzistenciou. V tejto práci sme vykonali veľké množstvo experimentov s modelmi trénovanými na párovaných a nepárovaných dátach. Naše výsledky ukazujú, že využitie cyklickej konzistencie výrazne zlepšuje výkonnosť modelov.
Robust Audio Dereverberation and Denoising
Košina, Simon ; Skácel, Miroslav (referee) ; Szőke, Igor (advisor)
The goal of this thesis was to create a speech enhancement and dereverberation model for audio recordings coming from aircraft VHF communication. First, the thesis covers some theoretical grounds of machine learning and types of neural networks commonly used in such scenarios. Following is a description of the used framework, datasets and the implementation itself. Last chapters are focused on the performed experiments and their evaluation. At the end we talk about the future work that can be done in order to further improve the achieved results.
Analysis of impact of noise in recordings on the automated detection of hypokinetic dysarthria
Havelková, Nikola ; Galáž, Zoltán (referee) ; Kováč, Daniel (advisor)
This thesis deals with the automated detection of hypokinetic dysarthria by analysing the influence of noise present in recordings. Appropriate single-channel methods, specifically the spectral subtraction and Kalman filter, are selected and implemented in the MATLAB R2022a to enhance speech. These methods are also used for noise-free recordings, to which additive white noise was added. Afterwards, the effectiveness of these methods is objectively evaluated by using signal-to-noise ratio values. After enhancing of speech, interferences are extracted from the recordings. The effect of the presence of noise, as well as its subsequent suppression by individual methods, is then evaluated by statistical analysis, specifically using the Kruskal-Wallis test and the post hoc Dunn’s test. The probability of distributing parameters of clean, noisy and enhanced recordings, for which the effect of noise is significant, according to statistical tests, are plotted using violin and box graphs. Finally, the classification was done by logistic regression with the help of machine learning, where the effect of the presence of noise and subsequent speech enhancement on automated detection of hypokinetic dysarthria was described according to the area values under the ROC curve.
Improving Robustness of Speaker Recognition using Discriminative Techniques
Novotný, Ondřej ; Ferrer, Luciana (referee) ; Pollák, Petr (referee) ; Černocký, Jan (advisor)
Tato práce pojednává o využití diskriminativních technik v oblasti rozpoznávání  mluvčích za účelem získání větší robustnosti těchto systémů vůči vlivům negativně ovlivňující jejich výkonnost. Mezi tyto vlivy řadíme šum, reverberaci nebo přenosový kanál. Práce je rozdělena do dvou hlavních částí. V první části se věnujeme teoretickému úvodu do problematiky rozpoznávání mluvčích. Popsány jsou  jednotlivé kroky rozpoznávacího systému od extrakce akustických příznaků, extrakce vektorových reprezentací nahrávek, až po tvorbu finálního rozpoznávacího skóre. Zvláštní důraz je věnován technikám extrakce vektorové reprezentace nahrávky, kdy popisujeme dvě rozdílná paradigmata možného přístupu, i-vektory a x-vektory. Druhá část práce se již více věnuje diskriminativním technikám pro zvýšení robustnosti. Techniky jsou organizovány tak, aby odpovídaly postupnému průchodu nahrávky rozpoznávacím systémem.  Nejdříve je věnována pozornost  předzpracování signálu pomocí neuronové sítě pro odšumění a obohacení signálu řeči jako univerzální technice, která je nezávislá na následně použitém rozpoznávacím systému.  Dále se zameřujeme na využití diskriminativního přístupu při extrakci příznaků a extrakci vektorových reprezentací nahrávek. Práce rovněž pokrývá přechod od generativního paradigmatu k plně diskriminativnímu přístupu v systémech pro rozpoznávání mluvčích.  Veškeré techniky jsou následně vždy experimentálně ověřeny a zhodnocen jejich přínos. V práci je navrženo několik přístupů, které se osvědčily jak u generativního přístupu v podobě i-vektorů, tak i u diskriminativních x-vektorů, a díky nim bylo dosaženo významného zlepšení. Pro úplnost jsou, v oblasti problematiky robustnosti, do práce zařazeny i další techniky, jako je normalizace skóre, či více-scénářové trénování systémů. Závěrem se práce zabývá problematikou robustnosti diskriminativních systému z pohledu dat využitých při jejich trénování.
Speech Enhancement with Cycle-Consistent Neural Networks
Karlík, Pavol ; Černocký, Jan (referee) ; Žmolíková, Kateřina (advisor)
Hlboké neurónové siete sa bežne používajú v oblasti odstraňovania šumu. Trénovací proces neurónovej siete je možné rožšíriť využitím druhej neurónovej siete, ktorej cieľom je vložiť šum do čistej rečovej nahrávky. Tieto dve siete sa môžu spolu využiť k rekonštrukcii pôvodných čistých a zašumených nahrávok. Táto práca skúma efektivitu tejto techniky, zvanej cyklická konzistencia. Cyklická konzistencia zlepšuje robustnosť neurónovej siete bez toho, aby sa daná sieť akokoľvek modifikovala, nakoľko vystavuje sieť na odstraňovanie šumu rôznorodejšiemu množstvu zašumených dát. Avšak, táto technika vyžaduje trénovacie dáta skladajúce sa z párov vstupných a referenčných nahrávok. Tieto dáta niesu vždy dostupné. Na trénovanie modelov s nepárovanými dátami využívame generatívne neurónové siete s cyklickou konzistenciou. V tejto práci sme vykonali veľké množstvo experimentov s modelmi trénovanými na párovaných a nepárovaných dátach. Naše výsledky ukazujú, že využitie cyklickej konzistencie výrazne zlepšuje výkonnosť modelov.

National Repository of Grey Literature : 16 records found   1 - 10next  jump to record:
Interested in being notified about new results for this query?
Subscribe to the RSS feed.