Národní úložiště šedé literatury Nalezeno 3 záznamů.  Hledání trvalo 0.00 vteřin. 
Integrace augmentace dat do Pytorch
Vašina, Ladislav ; Polok, Alexander (oponent) ; Szőke, Igor (vedoucí práce)
Tato práce představuje nástroj, který tvoří sjednocené, jednoduché a uživatelsky přívětivé rozhraní nad knihovnami pro augmentaci zvukových dat, jež je možné využít spolu s knihovnou PyTorch. Implementovaný nástroj nabízí možnost použití širokého spektra augmentací z různých knihoven a umožňuje je jednoduše aplikovat na datové sady. Podpory takto velkého spektra augmentací by bylo možné dosáhnout pouze za použití mnoha rozhraní jednotlivých knihoven. Nástroj je schopný od uživatele přijímat seznam augmentací s jejich parametry a sám rozhoduje, jakou z integrovaných knihoven pro dané augmentace použít. Vytvořený nástroj byl testován na úkolu ladění automatického rozpoznávače řeči Whisper. Hlavním přínosem této práce je implementace řešení velkého množství knihoven pro augmentaci zvukových dat, kde každá knihovna poskytuje jiný počet a různé druhy augmentací zvuku a zároveň má i jiné vlastnosti a rozhraní.
Microphone Arrays for Speaker Recognition
Mošner, Ladislav ; Plchot, Oldřich (oponent) ; Černocký, Jan (vedoucí práce)
This thesis addresses the problem of remote speaker recognition. The accuracy of standard speaker recognition decreases considerably in the presence of far-field data, therefore, we devised two strategies to improve the results. First, we employed a microphone array (purposely positioned set of microphones) that is able to steer a virtual "beam" to the position of the speaker. We also performed system adaptation of different parts of the system (PLDA scoring and i-vector extraction). We have synthesized our training and test data from the standard NIST 2010 data by room simulation and we have shown that both techniques and their combination significantly improve the results. We have also dealt with joint speaker identity and position estimation. While the results in simulated outdoor environment (reverberation-free) are encouraging, the results from interiors (with reverberation) are mixed and require further investigation. Finally, we were able to test our system on a limited amount of real re-transmitted data. While the results for male speakers match the simulation, the results for females are not convincing and need further analysis.
Microphone Arrays for Speaker Recognition
Mošner, Ladislav ; Plchot, Oldřich (oponent) ; Černocký, Jan (vedoucí práce)
This thesis addresses the problem of remote speaker recognition. The accuracy of standard speaker recognition decreases considerably in the presence of far-field data, therefore, we devised two strategies to improve the results. First, we employed a microphone array (purposely positioned set of microphones) that is able to steer a virtual "beam" to the position of the speaker. We also performed system adaptation of different parts of the system (PLDA scoring and i-vector extraction). We have synthesized our training and test data from the standard NIST 2010 data by room simulation and we have shown that both techniques and their combination significantly improve the results. We have also dealt with joint speaker identity and position estimation. While the results in simulated outdoor environment (reverberation-free) are encouraging, the results from interiors (with reverberation) are mixed and require further investigation. Finally, we were able to test our system on a limited amount of real re-transmitted data. While the results for male speakers match the simulation, the results for females are not convincing and need further analysis.

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.