National Repository of Grey Literature 6 records found  Search took 0.02 seconds. 
Learning Speech Separation Using Spatial Cues
Pavlus, Ján ; Mošner, Ladislav (referee) ; Žmolíková, Kateřina (advisor)
Tahle práce pojednává o~možnosti použití prostorových informací pro odhadnutí masek pro cíle, které je uvedeno v~článku \textit{Bootstrapping single-channel source separation via unsupervised spatial clustering on stereo mixtures}. Tahle myšlenka umožňuje použití neumělých náhrávek směsice signálů pro trénování systémů separace řečníků, které používají neuronové sítě. V~práci jsou zmíněny dvě trénovací metotody a to permutačně invariantní trénování a dále pak metoda deep clustering. Tyto metody jsou použity pro experimenty s~trénováním neuronových sítí s~použítím masek cílů, které jsou odhadnuty pomocí prostorové informace. Výsledkem práce je porovnání výsledků těchto experimentů s~výsledky výše zmíněného článku. Tohle porovnání ukázalo, že použití odhadnutých masek za pomoci prostorových informací, může vést ke kvalitnímu natrénování systému separace řečníků.
Adversarial Augmentation for Robust Speech Separation
Pavlus, Ján ; Černocký, Jan (referee) ; Žmolíková, Kateřina (advisor)
Separace řečníků se zabývá separácí signálů jednotlivých řečníků z dané směsi vícero řečníků. Neuronové sítě trénované pro separaci řečníků fungují většinou dobře na uměle smíchaných nahrávkách, ovšem při použití směsí z reálného světa často selhávají. Pro zlepšení tohoto chování, je možné použít augmentaci trénovacích dat, jako je například přidání šumu. Nicméně tyto augmentace jsou limitovány tím, že musí být ručně navrhnuty.     V této práci je použita modifikovaná verze modelu generativních adversarialních sítí (GAN), která může zlepšit tuto vlastnost tak, že generuje augmentace na základě míry zmatení separačního systému. Po každém kroku trénování generátoru a separátoru se systém separace řečníků stává více robustní. Takto navrhnutý model byl podroben experimentům. Během těchto experimentů byly různě nastavovány parametry GAN modelu, aby se nalezlo jejich nejlepší nastavení, které by vedlo ke správnému natrénování modelu, bez zkolabování do žádného módu. Během experimentů bylo takové nastavení nalezeno. Z takto natrénovaného modelu byl vybrán nejvíce robustní separátor a ten poté vyhodnocen. Výsledky hodnocení neukázaly zlepšení funkčnosti zrobustněného separačního systému vůči samému nezrobustněnému systému předtrénovanému na WSJ0-2mix datasetu, během testování na datasetu WHAM. Nicméně výsledky jiného hodnocení experimentů ukázaly, že separátor vybrán z trénování GAN modelu je značně zrobustněn oproti původnímu.
Time-Domain Neural Network Based Speaker Separation
Peška, Jiří ; Černocký, Jan (referee) ; Žmolíková, Kateřina (advisor)
A thesis is about the usage of convolutional neural networks for automatic speech separation in an acoustic environment. The goal is to implement the neural network by following a TasNet architecture in the PyTorch framework, train this network with various values of hyper-parameters, and to compare the quality of separations based on the size of the network. In contrast to older architectures that transformed an input mixture into a time-frequency representation, this architecture uses a convolutional autoencoder, which transforms input mixture into a non-negative representation optimized for a speaker extraction. Separation is achieved by applying the masks, which are estimated in the separation module. This module consists of stacked convolutional blocks with increasing dilation, which helps with modeling of the long-term time dependencies in processed speech. Evaluation of the precision of the network is measured by a signal to distortion (SDR) metric, by a perceptual evaluation of speech quality (PESQ), and the short-time objective intelligibility (STOI). The Wall Street Journal dataset (WSJ0) has been used for training and evaluation. Trained models with various values of hyper-parameters enable us to observe the dependency between the size of the network and SDR value. While smaller network after 60 epochs of training reached 10.8 dB of accuracy, a bigger network reached 12.71 dB.
Adversarial Augmentation for Robust Speech Separation
Pavlus, Ján ; Černocký, Jan (referee) ; Žmolíková, Kateřina (advisor)
Separace řečníků se zabývá separácí signálů jednotlivých řečníků z dané směsi vícero řečníků. Neuronové sítě trénované pro separaci řečníků fungují většinou dobře na uměle smíchaných nahrávkách, ovšem při použití směsí z reálného světa často selhávají. Pro zlepšení tohoto chování, je možné použít augmentaci trénovacích dat, jako je například přidání šumu. Nicméně tyto augmentace jsou limitovány tím, že musí být ručně navrhnuty.     V této práci je použita modifikovaná verze modelu generativních adversarialních sítí (GAN), která může zlepšit tuto vlastnost tak, že generuje augmentace na základě míry zmatení separačního systému. Po každém kroku trénování generátoru a separátoru se systém separace řečníků stává více robustní. Takto navrhnutý model byl podroben experimentům. Během těchto experimentů byly různě nastavovány parametry GAN modelu, aby se nalezlo jejich nejlepší nastavení, které by vedlo ke správnému natrénování modelu, bez zkolabování do žádného módu. Během experimentů bylo takové nastavení nalezeno. Z takto natrénovaného modelu byl vybrán nejvíce robustní separátor a ten poté vyhodnocen. Výsledky hodnocení neukázaly zlepšení funkčnosti zrobustněného separačního systému vůči samému nezrobustněnému systému předtrénovanému na WSJ0-2mix datasetu, během testování na datasetu WHAM. Nicméně výsledky jiného hodnocení experimentů ukázaly, že separátor vybrán z trénování GAN modelu je značně zrobustněn oproti původnímu.
Time-Domain Neural Network Based Speaker Separation
Peška, Jiří ; Černocký, Jan (referee) ; Žmolíková, Kateřina (advisor)
A thesis is about the usage of convolutional neural networks for automatic speech separation in an acoustic environment. The goal is to implement the neural network by following a TasNet architecture in the PyTorch framework, train this network with various values of hyper-parameters, and to compare the quality of separations based on the size of the network. In contrast to older architectures that transformed an input mixture into a time-frequency representation, this architecture uses a convolutional autoencoder, which transforms input mixture into a non-negative representation optimized for a speaker extraction. Separation is achieved by applying the masks, which are estimated in the separation module. This module consists of stacked convolutional blocks with increasing dilation, which helps with modeling of the long-term time dependencies in processed speech. Evaluation of the precision of the network is measured by a signal to distortion (SDR) metric, by a perceptual evaluation of speech quality (PESQ), and the short-time objective intelligibility (STOI). The Wall Street Journal dataset (WSJ0) has been used for training and evaluation. Trained models with various values of hyper-parameters enable us to observe the dependency between the size of the network and SDR value. While smaller network after 60 epochs of training reached 10.8 dB of accuracy, a bigger network reached 12.71 dB.
Learning Speech Separation Using Spatial Cues
Pavlus, Ján ; Mošner, Ladislav (referee) ; Žmolíková, Kateřina (advisor)
Tahle práce pojednává o~možnosti použití prostorových informací pro odhadnutí masek pro cíle, které je uvedeno v~článku \textit{Bootstrapping single-channel source separation via unsupervised spatial clustering on stereo mixtures}. Tahle myšlenka umožňuje použití neumělých náhrávek směsice signálů pro trénování systémů separace řečníků, které používají neuronové sítě. V~práci jsou zmíněny dvě trénovací metotody a to permutačně invariantní trénování a dále pak metoda deep clustering. Tyto metody jsou použity pro experimenty s~trénováním neuronových sítí s~použítím masek cílů, které jsou odhadnuty pomocí prostorové informace. Výsledkem práce je porovnání výsledků těchto experimentů s~výsledky výše zmíněného článku. Tohle porovnání ukázalo, že použití odhadnutých masek za pomoci prostorových informací, může vést ke kvalitnímu natrénování systému separace řečníků.

Interested in being notified about new results for this query?
Subscribe to the RSS feed.