National Repository of Grey Literature 4 records found  Search took 0.01 seconds. 
Learning Speech Separation Using Spatial Cues
Pavlus, Ján ; Mošner, Ladislav (referee) ; Žmolíková, Kateřina (advisor)
Tahle práce pojednává o~možnosti použití prostorových informací pro odhadnutí masek pro cíle, které je uvedeno v~článku \textit{Bootstrapping single-channel source separation via unsupervised spatial clustering on stereo mixtures}. Tahle myšlenka umožňuje použití neumělých náhrávek směsice signálů pro trénování systémů separace řečníků, které používají neuronové sítě. V~práci jsou zmíněny dvě trénovací metotody a to permutačně invariantní trénování a dále pak metoda deep clustering. Tyto metody jsou použity pro experimenty s~trénováním neuronových sítí s~použítím masek cílů, které jsou odhadnuty pomocí prostorové informace. Výsledkem práce je porovnání výsledků těchto experimentů s~výsledky výše zmíněného článku. Tohle porovnání ukázalo, že použití odhadnutých masek za pomoci prostorových informací, může vést ke kvalitnímu natrénování systému separace řečníků.
Adversarial Augmentation for Robust Speech Separation
Pavlus, Ján ; Černocký, Jan (referee) ; Žmolíková, Kateřina (advisor)
Separace řečníků se zabývá separácí signálů jednotlivých řečníků z dané směsi vícero řečníků. Neuronové sítě trénované pro separaci řečníků fungují většinou dobře na uměle smíchaných nahrávkách, ovšem při použití směsí z reálného světa často selhávají. Pro zlepšení tohoto chování, je možné použít augmentaci trénovacích dat, jako je například přidání šumu. Nicméně tyto augmentace jsou limitovány tím, že musí být ručně navrhnuty.     V této práci je použita modifikovaná verze modelu generativních adversarialních sítí (GAN), která může zlepšit tuto vlastnost tak, že generuje augmentace na základě míry zmatení separačního systému. Po každém kroku trénování generátoru a separátoru se systém separace řečníků stává více robustní. Takto navrhnutý model byl podroben experimentům. Během těchto experimentů byly různě nastavovány parametry GAN modelu, aby se nalezlo jejich nejlepší nastavení, které by vedlo ke správnému natrénování modelu, bez zkolabování do žádného módu. Během experimentů bylo takové nastavení nalezeno. Z takto natrénovaného modelu byl vybrán nejvíce robustní separátor a ten poté vyhodnocen. Výsledky hodnocení neukázaly zlepšení funkčnosti zrobustněného separačního systému vůči samému nezrobustněnému systému předtrénovanému na WSJ0-2mix datasetu, během testování na datasetu WHAM. Nicméně výsledky jiného hodnocení experimentů ukázaly, že separátor vybrán z trénování GAN modelu je značně zrobustněn oproti původnímu.
Adversarial Augmentation for Robust Speech Separation
Pavlus, Ján ; Černocký, Jan (referee) ; Žmolíková, Kateřina (advisor)
Separace řečníků se zabývá separácí signálů jednotlivých řečníků z dané směsi vícero řečníků. Neuronové sítě trénované pro separaci řečníků fungují většinou dobře na uměle smíchaných nahrávkách, ovšem při použití směsí z reálného světa často selhávají. Pro zlepšení tohoto chování, je možné použít augmentaci trénovacích dat, jako je například přidání šumu. Nicméně tyto augmentace jsou limitovány tím, že musí být ručně navrhnuty.     V této práci je použita modifikovaná verze modelu generativních adversarialních sítí (GAN), která může zlepšit tuto vlastnost tak, že generuje augmentace na základě míry zmatení separačního systému. Po každém kroku trénování generátoru a separátoru se systém separace řečníků stává více robustní. Takto navrhnutý model byl podroben experimentům. Během těchto experimentů byly různě nastavovány parametry GAN modelu, aby se nalezlo jejich nejlepší nastavení, které by vedlo ke správnému natrénování modelu, bez zkolabování do žádného módu. Během experimentů bylo takové nastavení nalezeno. Z takto natrénovaného modelu byl vybrán nejvíce robustní separátor a ten poté vyhodnocen. Výsledky hodnocení neukázaly zlepšení funkčnosti zrobustněného separačního systému vůči samému nezrobustněnému systému předtrénovanému na WSJ0-2mix datasetu, během testování na datasetu WHAM. Nicméně výsledky jiného hodnocení experimentů ukázaly, že separátor vybrán z trénování GAN modelu je značně zrobustněn oproti původnímu.
Learning Speech Separation Using Spatial Cues
Pavlus, Ján ; Mošner, Ladislav (referee) ; Žmolíková, Kateřina (advisor)
Tahle práce pojednává o~možnosti použití prostorových informací pro odhadnutí masek pro cíle, které je uvedeno v~článku \textit{Bootstrapping single-channel source separation via unsupervised spatial clustering on stereo mixtures}. Tahle myšlenka umožňuje použití neumělých náhrávek směsice signálů pro trénování systémů separace řečníků, které používají neuronové sítě. V~práci jsou zmíněny dvě trénovací metotody a to permutačně invariantní trénování a dále pak metoda deep clustering. Tyto metody jsou použity pro experimenty s~trénováním neuronových sítí s~použítím masek cílů, které jsou odhadnuty pomocí prostorové informace. Výsledkem práce je porovnání výsledků těchto experimentů s~výsledky výše zmíněného článku. Tohle porovnání ukázalo, že použití odhadnutých masek za pomoci prostorových informací, může vést ke kvalitnímu natrénování systému separace řečníků.

Interested in being notified about new results for this query?
Subscribe to the RSS feed.