Národní úložiště šedé literatury Nalezeno 16 záznamů.  1 - 10další  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Improving Robustness of Speaker Recognition using Discriminative Techniques
Novotný, Ondřej ; Ferrer, Luciana (oponent) ; Pollák, Petr (oponent) ; Černocký, Jan (vedoucí práce)
This work deals with discriminative techniques in speaker verification systems to improve robustness of the systems against factors that negatively affect their performance. These factors include noise, reverberation, or the transmission channel. The thesis consists of two main parts. In the first part, it deals with a theoretical introduction to current state-of-the-art speaker verification systems. The recognition system's steps are described, starting from the extraction of acoustic features, the extraction of vector representations of recordings, and the final recognition score computation. Particular emphasis is paid to the techniques of extraction of a vector representation of a recording, where we describe two different paradigms: the i-vectors and the x-vectors. The second part of the work focuses more on discriminative techniques to increase robustness. Their description is organized to match the gradual passage of the recording through the verification system. First, attention is paid to signal pre-processing using a neural network for noise reduction and speech enhancement. This pre-processing is a universal technique independent of the verification system. The work follows by focusing on the use of a discriminative approach in the extraction of features and the extraction of vector representations of recordings. Furthermore, this work sheds light on the transition from generative systems to discriminative systems. In order to give a fuller context, the work also describes techniques that had historically preceded this transition. All presented techniques are always experimentally verified and their advantages evaluated. We are proposing several techniques that have proved successful in both the generative approach in the form of i-vectors and discriminative x-vectors, and thanks to them, considerable improvement has been achieved. For completeness, in the field of robustness, other techniques are included in the work, such as normalization of scores or multi-condition training. Finally, the work deals with the robustness of discriminative systems in terms of data used in their training.
Vícekanálové metody zvýrazňování řeči
Zitka, Adam ; Balík, Miroslav (oponent) ; Smékal, Zdeněk (vedoucí práce)
Diplomová práce se zabývá vícekanálovými metodami zvýrazňování řeči. Vícekanálové metody zvýrazňování řeči používají pro snímání signálů více mikrofonů. Ze směsí signálů můžeme pomocí neuronových sítí oddělit například jednotlivé mluvčí, potlačit hluk v pozadí či šum. Tato úloha bývá nazývána cocktail-party efekt. Hlavní metoda řešící tento problém se nazývá analýza nezávislých komponent. V práci jsou nejdříve popsány její teoretické základy a jsou představeny podmínky a požadavky k její aplikaci. Jednotlivé metody ICA se snaží směsi rozdělovat pomocí hledání co nejmenších gaussovských vlastností signálů. Pro analýzu nezávislých komponent se používají různé matematické vlastnosti signálů jako je např. špičatost a entropie. Signály, které byly smíšeny uměle v počítači, lze poměrně dobře oddělovat např. pomocí FastICA či algoritmu rostoucího gradientu. Složitější situace nastává, chceme-li oddělit signály pořízené v reálném nahrávacím prostředí, protože separaci řeči osob současně mluvících v reálném prostředí ovlivňují různé další okolnosti jako akustické vlastnosti místnosti, šum, zpoždění, odrazy od stěn, pozice či typ mikrofonů apod. Práce představuje postup analýzy nezávislých komponent ve frekvenční oblasti, který dokáže úspěšně oddělit i nahrávky pořízené v reálném prostředí.
Robustní odšumování a dereverberace audia
Košina, Simon ; Skácel, Miroslav (oponent) ; Szőke, Igor (vedoucí práce)
Cieľom tejto práce je vytvorenie modelu pre odšumovanie a dereverberáciu audio nahrávok pochádzajúcich z leteckej VHF komunikácie. Práca popisuje teoretické základy strojového učenia a rôzne architektúry neurónových sieti, ktoré sa v prípade podobných problémov často používajú. Nasleduje popis použitých nástrojov, implementácie a dátových sád. Posledné kapitoly sa venujú vykonaným experimentom, dosiahnutým výsledkom a nadväzujúcej práci.
Subjektivní a objektivní hodnocení kvality řečového signálu
Bezdíček, Martin ; Balík, Miroslav (oponent) ; Vondra, Martin (vedoucí práce)
Předložená bakalářská práce je zaměřena na subjektivní a objektivní metody pro měření kvality řečového signálu. Nejdříve se zabývá kvalitou přenosu řečového signálu, vlivy a složkami, které jí ovlivňují. Poté jsou v této práci postupně uvedeny použité subjektivní a objektivní metody hodnocení kvality řečového signálu. Jako objektivní metody byly zvoleny: poměr signálu k šumu SNR a jeho modifikaci pro řečový signál SSNR, metody ve spektrální oblasti (Itakurova míra a Kepstrální vzdálenost) a také metoda PESQ. V další části je popsána korelační analýza, která byla použita k porovnání subjektivních a objektivních metod hodnocení řečového signálu zvýrazněného algoritmy pro potlačení šumu. Poslední část této bakalářské práce obsahuje výsledky a to jak subjektivní metody, tak i objektivních metod. Na základě výsledků korelační analýzy byla v závěru doporučena nejlepší objektivní metoda, která nejvíce korelovala s výsledky subjektivní metody.
Analýza vlivu přítomnosti šumu v nahrávkách na automatizovanou detekci hypokinetické dysartrie
Havelková, Nikola ; Galáž, Zoltán (oponent) ; Kováč, Daniel (vedoucí práce)
Práce se zabývá analýzou vlivu přítomnosti šumu v nahrávkách na automatizovanou detekci hypokinetické dysartrie. Pro zvýraznění řeči jsou zvoleny a v prostředí MATLAB R2022a implementovány vhodné jednokanálové metody, a to konkrétně spektrální odečítání a Kalmanův filtr. Metody jsou rovněž použity i u nahrávek bez zatížení šumem, ke kterým byl přidán aditivní bílý šum. Účinnost těchto metod je pak hodnocena objektivně pomocí hodnot odstupu signálu od šumu. Po zvýraznění řeči jsou z nahrávek extrahovány řečové příznaky. Vliv přítomnosti šumu, a i jeho následné potlačení jednotlivými metodami, je následně vyhodnoceno statistickou analýzou, konkrétně za pomoci Kruskal-Wallisova testu a post-hoc Dunnova testu. Distribuce pravděpodobnosti parametrů nahrávek čistých, zašuměných i zvýrazněných, u nichž je dle statistických testů vliv šumu signifikantní, jsou vykresleny za pomoci houslových a krabicových grafů. Na závěr byla provedena klasifikace nahrávek logistickou regresí za pomoci strojového učení, kdy byl dle hodnot plochy pod ROC křivkou popsán vliv přítomnosti šumu a následné zvýraznění řeči na automatizovanou detekci hypokinetické dysartrie.
Speech Enhancement with Cycle-Consistent Neural Networks
Karlík, Pavol ; Černocký, Jan (oponent) ; Žmolíková, Kateřina (vedoucí práce)
Deep neural networks (DNNs) have become a standard approach for solving problems of speech enhancement (SE). The training process of a neural network can be extended by using a second neural network, which learns to insert noise into a clean speech signal. Those two networks can be used in combination with each other to reconstruct clean and noisy speech samples. This thesis focuses on utilizing this technique, called cycle-consistency. Cycle-consistency improves the robustness of a network without modifying the speech-enhancing neural network, as it exposes the SE network to a much larger variety of noisy data. However, this method requires input-target training data pairs, which are not always available. We use generative adversarial networks (GANs) with cycle-consistency constraint to train the network using unpaired data. We perform a large number of experiments using both paired and unpaired training data. Our results have shown that adding cycle-consistency improves the models' performance significantly.
Robustní odšumování a dereverberace audia
Košina, Simon ; Skácel, Miroslav (oponent) ; Szőke, Igor (vedoucí práce)
Cieľom tejto práce je vytvorenie modelu pre odšumovanie a dereverberáciu audio nahrávok pochádzajúcich z leteckej VHF komunikácie. Práca popisuje teoretické základy strojového učenia a rôzne architektúry neurónových sieti, ktoré sa v prípade podobných problémov často používajú. Nasleduje popis použitých nástrojov, implementácie a dátových sád. Posledné kapitoly sa venujú vykonaným experimentom, dosiahnutým výsledkom a nadväzujúcej práci.
Analýza vlivu přítomnosti šumu v nahrávkách na automatizovanou detekci hypokinetické dysartrie
Havelková, Nikola ; Galáž, Zoltán (oponent) ; Kováč, Daniel (vedoucí práce)
Práce se zabývá analýzou vlivu přítomnosti šumu v nahrávkách na automatizovanou detekci hypokinetické dysartrie. Pro zvýraznění řeči jsou zvoleny a v prostředí MATLAB R2022a implementovány vhodné jednokanálové metody, a to konkrétně spektrální odečítání a Kalmanův filtr. Metody jsou rovněž použity i u nahrávek bez zatížení šumem, ke kterým byl přidán aditivní bílý šum. Účinnost těchto metod je pak hodnocena objektivně pomocí hodnot odstupu signálu od šumu. Po zvýraznění řeči jsou z nahrávek extrahovány řečové příznaky. Vliv přítomnosti šumu, a i jeho následné potlačení jednotlivými metodami, je následně vyhodnoceno statistickou analýzou, konkrétně za pomoci Kruskal-Wallisova testu a post-hoc Dunnova testu. Distribuce pravděpodobnosti parametrů nahrávek čistých, zašuměných i zvýrazněných, u nichž je dle statistických testů vliv šumu signifikantní, jsou vykresleny za pomoci houslových a krabicových grafů. Na závěr byla provedena klasifikace nahrávek logistickou regresí za pomoci strojového učení, kdy byl dle hodnot plochy pod ROC křivkou popsán vliv přítomnosti šumu a následné zvýraznění řeči na automatizovanou detekci hypokinetické dysartrie.
Improving Robustness of Speaker Recognition using Discriminative Techniques
Novotný, Ondřej ; Ferrer, Luciana (oponent) ; Pollák, Petr (oponent) ; Černocký, Jan (vedoucí práce)
This work deals with discriminative techniques in speaker verification systems to improve robustness of the systems against factors that negatively affect their performance. These factors include noise, reverberation, or the transmission channel. The thesis consists of two main parts. In the first part, it deals with a theoretical introduction to current state-of-the-art speaker verification systems. The recognition system's steps are described, starting from the extraction of acoustic features, the extraction of vector representations of recordings, and the final recognition score computation. Particular emphasis is paid to the techniques of extraction of a vector representation of a recording, where we describe two different paradigms: the i-vectors and the x-vectors. The second part of the work focuses more on discriminative techniques to increase robustness. Their description is organized to match the gradual passage of the recording through the verification system. First, attention is paid to signal pre-processing using a neural network for noise reduction and speech enhancement. This pre-processing is a universal technique independent of the verification system. The work follows by focusing on the use of a discriminative approach in the extraction of features and the extraction of vector representations of recordings. Furthermore, this work sheds light on the transition from generative systems to discriminative systems. In order to give a fuller context, the work also describes techniques that had historically preceded this transition. All presented techniques are always experimentally verified and their advantages evaluated. We are proposing several techniques that have proved successful in both the generative approach in the form of i-vectors and discriminative x-vectors, and thanks to them, considerable improvement has been achieved. For completeness, in the field of robustness, other techniques are included in the work, such as normalization of scores or multi-condition training. Finally, the work deals with the robustness of discriminative systems in terms of data used in their training.
Speech Enhancement with Cycle-Consistent Neural Networks
Karlík, Pavol ; Černocký, Jan (oponent) ; Žmolíková, Kateřina (vedoucí práce)
Deep neural networks (DNNs) have become a standard approach for solving problems of speech enhancement (SE). The training process of a neural network can be extended by using a second neural network, which learns to insert noise into a clean speech signal. Those two networks can be used in combination with each other to reconstruct clean and noisy speech samples. This thesis focuses on utilizing this technique, called cycle-consistency. Cycle-consistency improves the robustness of a network without modifying the speech-enhancing neural network, as it exposes the SE network to a much larger variety of noisy data. However, this method requires input-target training data pairs, which are not always available. We use generative adversarial networks (GANs) with cycle-consistency constraint to train the network using unpaired data. We perform a large number of experiments using both paired and unpaired training data. Our results have shown that adding cycle-consistency improves the models' performance significantly.

Národní úložiště šedé literatury : Nalezeno 16 záznamů.   1 - 10další  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.