National Repository of Grey Literature 7 records found  Search took 0.01 seconds. 
Data augmentation integration into Pytorch
Vašina, Ladislav ; Polok, Alexander (referee) ; Szőke, Igor (advisor)
This thesis presents a tool that creates a unified, simple, and user-friendly interface on top of the audio augmentation libraries that can be used in conjunction with PyTorch library. The implemented tool offers the possibility to use a wide spectrum of augmentations from different libraries and offers easy application of those augmentations on the datasets. The support of the large range of augmentations could be only achieved by using multiple interfaces of the individual libraries. The tool can receive a list of augmentations from the user with its parameters and then it decides which of the integrated libraries it should use to apply that specific augmentation. The created tool was tested on the task of fine-tuning the automatic speech recognition system called Whisper. The main contribution of this work is that it provides a solution to a large number of libraries for the augmentation of audio data, where each library provides a different number and types of augmentations of audio, while also having different features and interfaces.
Compensation of Loudspeaker Frequency Response for a Wider Listening Area
Beránek, Šimon ; Říha, Kamil (referee) ; Schimmel, Jiří (advisor)
This bachelor thesis studies problematics of calculating average impulse responses of rooms. Measuring signals like MLS or linear/exponential sine sweep are described. Basic methods of interpolation are explained and their applicability in frequency response calculations is described. Digital filters are explained as a tool for frequency response equalization. First part of this thesis tests methods of interpolation on 64 measured impulse responses. These methods have been further optimized and one was chosen to calculate the average impulse response for each of the measured rooms. Second part consists of AB*X listening tests deployed to find subjective aural differences of the interpolated impulse responses and few of the measured impulse responses. These interpolated impulses responses were further compensated using a warped filter library.
Application for Measurement of Room Impulse Responses
Vrbík, Matouš ; Balík, Miroslav (referee) ; Schimmel, Jiří (advisor)
This paper studies problematics of room impulse response measuring. Signals appropriate for measuring are mentioned, with emphasis on stepped sine signal (sweep) and MLS signals. Measuring methods suitable for particular signals are introduced. Another parameter characterizing room qualities is reverberation time. Theoretical and practical methods for determination of this parameter are described. First part of this thesis offers solution in MATLAB environment. Functions for generating measuring signals and for subsequent processing of measured data were created. In second part of this thesis, methods were implemented in C++ language and standalone application, which uses ASIO technology, was created.
Microphone Arrays for Speaker Recognition
Mošner, Ladislav ; Plchot, Oldřich (referee) ; Černocký, Jan (advisor)
Tato diplomová práce se zabývá problematikou vzdáleného rozpoznávání mluvčích. V případě dat zachycených odlehlým mikrofonem se přesnost standardního rozpoznávání značně snižuje, proto jsem navrhl dva přístupy pro zlepšení výsledků. Prvním z nich je použití mikrofonního pole (záměrně rozestavené sady mikrofonů), které je schopné nasměrovat virtuální "paprsek" na pozici řečníka. Dále jsem prováděl adaptaci komponent systému (PLDA skórování a extraktoru i-vektorů). S využitím simulace pokojových podmínek jsem syntetizoval trénovací a testovací data ze standardní datové sady NIST 2010. Ukázal jsem, že obě techniky a jejich kombinace vedou k výraznému zlepšení výsledků. Dále jsem se zabýval společným určením identity a pozice mluvčího. Zatímco výsledky ve venkovním simulovaném prostředí (bez ozvěn) jsou slibné, výsledky z interiéru (s ozvěnami) jsou smíšené a vyžadují další prozkoumání. Na závěr jsem mohl systémem vyhodnotit omezené množství reálných dat získaných přehráním a záznamem nahrávek ve skutečné místnosti. Zatímco výsledky pro mužské nahrávky odpovídají simulaci, výsledky pro ženské nahrávky nejsou přesvědčivé a vyžadují další analýzu.
Compensation of Loudspeaker Frequency Response for a Wider Listening Area
Beránek, Šimon ; Říha, Kamil (referee) ; Schimmel, Jiří (advisor)
This bachelor thesis studies problematics of calculating average impulse responses of rooms. Measuring signals like MLS or linear/exponential sine sweep are described. Basic methods of interpolation are explained and their applicability in frequency response calculations is described. Digital filters are explained as a tool for frequency response equalization. First part of this thesis tests methods of interpolation on 64 measured impulse responses. These methods have been further optimized and one was chosen to calculate the average impulse response for each of the measured rooms. Second part consists of AB*X listening tests deployed to find subjective aural differences of the interpolated impulse responses and few of the measured impulse responses. These interpolated impulses responses were further compensated using a warped filter library.
Application for Measurement of Room Impulse Responses
Vrbík, Matouš ; Balík, Miroslav (referee) ; Schimmel, Jiří (advisor)
This paper studies problematics of room impulse response measuring. Signals appropriate for measuring are mentioned, with emphasis on stepped sine signal (sweep) and MLS signals. Measuring methods suitable for particular signals are introduced. Another parameter characterizing room qualities is reverberation time. Theoretical and practical methods for determination of this parameter are described. First part of this thesis offers solution in MATLAB environment. Functions for generating measuring signals and for subsequent processing of measured data were created. In second part of this thesis, methods were implemented in C++ language and standalone application, which uses ASIO technology, was created.
Microphone Arrays for Speaker Recognition
Mošner, Ladislav ; Plchot, Oldřich (referee) ; Černocký, Jan (advisor)
Tato diplomová práce se zabývá problematikou vzdáleného rozpoznávání mluvčích. V případě dat zachycených odlehlým mikrofonem se přesnost standardního rozpoznávání značně snižuje, proto jsem navrhl dva přístupy pro zlepšení výsledků. Prvním z nich je použití mikrofonního pole (záměrně rozestavené sady mikrofonů), které je schopné nasměrovat virtuální "paprsek" na pozici řečníka. Dále jsem prováděl adaptaci komponent systému (PLDA skórování a extraktoru i-vektorů). S využitím simulace pokojových podmínek jsem syntetizoval trénovací a testovací data ze standardní datové sady NIST 2010. Ukázal jsem, že obě techniky a jejich kombinace vedou k výraznému zlepšení výsledků. Dále jsem se zabýval společným určením identity a pozice mluvčího. Zatímco výsledky ve venkovním simulovaném prostředí (bez ozvěn) jsou slibné, výsledky z interiéru (s ozvěnami) jsou smíšené a vyžadují další prozkoumání. Na závěr jsem mohl systémem vyhodnotit omezené množství reálných dat získaných přehráním a záznamem nahrávek ve skutečné místnosti. Zatímco výsledky pro mužské nahrávky odpovídají simulaci, výsledky pro ženské nahrávky nejsou přesvědčivé a vyžadují další analýzu.

Interested in being notified about new results for this query?
Subscribe to the RSS feed.