Národní úložiště šedé literatury Nalezeno 24 záznamů.  1 - 10dalšíkonec  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Interpretability of Neural Networks in Speech Processing
Sarvaš, Marek ; Mošner, Ladislav (oponent) ; Žmolíková, Kateřina (vedoucí práce)
With the growing popularity of deep neural networks, the lack of transparency caused by their black box representation is raising demand for their interpretability. The goal of this thesis is to gain new insights into deep neural networks in speech processing tasks. Specifically, gender classification task on AudioMNIST dataset and speaker classification task on filterbanks from VoxCeleb dataset using convolutional and residual neural network. Layer-wise relevance propagation was used for the interpretation of these neural networks. This method produced heatmaps highlighting features that contributed positively and negatively to the correct classification. As results of interpretation show, classifications were mainly based on lower frequencies in time. In the case of gender classification, I managed to find the model's high dependency on a small number of features. Using obtained information, I created an augmented training set that increased the model's robustness.
Odhad obličeje z řečového signálu
Zubalík, Petr ; Mošner, Ladislav (oponent) ; Plchot, Oldřich (vedoucí práce)
Hlavním cílem této diplomové práce bylo navrhnout a implementovat systém, který bude schopný odhadnout obličej na základě řeči daného člověka. Tento problém je vyřešen pomocí systému složeného ze tří modelů konvolučních neuronových sítí. První z nich je založen na architektuře ResNet a slouží pro extrahování příznaků z hlasových nahrávek. Druhým modelem je plně konvoluční neuronová síť, která převádí tyto příznaky na styly, na základě kterých bude upravován výsledný obrázek obličeje. Získané styly jsou poté předávány na vstup generátoru StyleGAN pro vygenerování výsledného obličeje. Navržený systém je implementován v programovacím jazyce Python s využitím frameworku PyTorch. V poslední kapitole práce je rozebráno a vyhodnoceno několik důležitých experimentů prováděných v rámci ladění a testování vytvořeného systému.
Speaker Verification without Feature Extraction
Lukáč, Peter ; Rohdin, Johan Andréas (oponent) ; Mošner, Ladislav (vedoucí práce)
Speaker verification is a field that is still improving its state of the art (SotA) and tries to meet the demands of its use in speaker authentication systems, forensic applications, etc. The improvements are made by the advancements in deep learning, the creation of new training and testing datasets and various speaker recognition challenges and speech workshops. In this thesis, we will explore models for speaker verification without feature extraction. Inputting the models with raw speaker waveform simplifies the pipeline of the systems, thus saving computational and memory resources and reducing the number of hyperparameters needed for creating the features from waveforms that affect the results. Currently, the models without feature extraction do not achieve the performance of the models with feature extraction. By applying various techniques to the models we will try to improve the baseline performance of the current models without feature extraction. The experiments with SotA techniques improved the performance of a model without feature extraction considerably however we still did not achieve the performance of a SotA model with feature extraction. However, the improvement is considerable enough so that we can use the improved model in a fusion with feature extraction model. We also discussed the experimental results and proposed improvements that aim to solve discovered limitations.
Aplikace pro simulaci akustiky místnosti
Krbila, Martin ; Szőke, Igor (oponent) ; Mošner, Ladislav (vedoucí práce)
Tato práce se zabývá simulací akustiky místností. V práci jsou nejprve teoreticky popsány existující přístupy k simulaci akustiky a srovnány jejich přednosti a nevýhody. K výpočtu odezvy místnosti bylo implementováno několik geometrických metod jako ray tracing a obrazová metoda, ale i kombinace těchto metod. Byla vytvořena aplikace s grafickým i textovým uživatelským rozhraním, která umožňuje provést simulaci v místnosti libovolného tvaru. Aplikace také umožňuje získat odezvu ve formě zvukového souboru, znázornit uživateli výsledky a postup simulace a provést auralizaci. Výstupy simulace byly porovnány s naměřenými odezvami skutečných místností. Při porovnání se ukázalo, že nejvyšší přesnosti z implementovaných metod dosahuje hybridní metoda ve středních nebo větších prázdných místnostech.
Systém pro měření akustických vlastností místností
Stojan, Martin ; Mošner, Ladislav (oponent) ; Szőke, Igor (vedoucí práce)
Tato práce navazuje na diplomovou práci pana Martina Lacha. Zabývá se systémem na zpracování audia od firmy Audified. Práce pojednává o zpříjemnění ovládání systému, testování funkcí systému s případnými modifikacemi, rozšíření současné funkcionality a vytvoření webové aplikace pro usnadnění zaznamenávání metadat o nahrávání. Také obsahuje návody pro zacházení se systémem a používání zmíněných aplikací.
Learning Speech Separation Using Spatial Cues
Pavlus, Ján ; Mošner, Ladislav (oponent) ; Žmolíková, Kateřina (vedoucí práce)
This thesis discusses the idea of using spatial cues in speech separation for estimating target masks, that is stated in article \textit{Bootstrapping single-channel source separation via unsupervised spatial clustering on stereo mixtures}. This idea may make it possible to use real-world mixtures for the training of speech separation systems, which use neural networks. In the thesis two training methods, permutation invariant training and deep clustering method are mentioned and used for experiments with training neural networks using target masks estimated by spatial cues. The result of the work is a comparison of the results of these experiments with the results of the above-mentioned article. This comparison showed that the use of estimated masks with the help of spatial information can lead to a quality training of the speaker separation system.
Vlastní 3D tiskárna
Mošner, Ladislav ; Klepárník, Petr (oponent) ; Španěl, Michal (vedoucí práce)
Tato práce se zabývá tématem 3D tisku. Hlavním cílem bylo vytvoření reálné tiskárny s tuhou konstrukcí snižující vliv vůlí na přesnost a kvalitu tisku. Návrh 3D tiskárny a jejích částí zaznamenal značné ovlivnění projektem RepRap, zejména strojem Rostock stavícím na delta kinematice a Fused Deposition Modeling. Výsledná tiskárna využívá platformu Arduino Mega 2560, na níž běží modifikovaný firmware Marlin, a vlastní konstrukci extrudéru, který by měl zabránit tavení plastové struny ve vodicí trubičce díky velkému chladiči. Experimentálně byla vyhodnocena přesnost 3D tiskárny, která se pohybuje v rozmezí +-0,1 mm.
Akustická detekce pozice řečníka pomocí mikrofonního pole
Horázný, František ; Mošner, Ladislav (oponent) ; Szőke, Igor (vedoucí práce)
Tato práce se zabývá problematikou určení přibližné polohy zdroje zvuku v souřadném systému pomocí mikrofonního pole. Zabývá se všemi vlivy na určení polohy pomocí audio signálů. Vysvětluje základní principy metod, které jsou využity pro detekci zdroje zvuku. Je zde uveden návrh řešení pro synchronizované statické nahrávky a dále úprava pro běh v reálném čase na sestavě systému ARM/SHARC, která má omezený výkon. Součástí řešení je také testování jednotlivých komponent a jejich parametrů. Znázorňuje vliv změn těchto parametrů na chování systému. Současně jsou popsány experimenty s výslednou aplikací ukazující změnu výsledků při výpočtu bez výkonnostního omezení a při běhu na zvukové kartě. Na závěr jsou uvedena doporučení a předpoklady jak docílit lepších výsledků při využívání programu a jak eliminovat omezení systému za nepříznivých podmínek.
Microphone Arrays for Speaker Recognition
Mošner, Ladislav ; Plchot, Oldřich (oponent) ; Černocký, Jan (vedoucí práce)
This thesis addresses the problem of remote speaker recognition. The accuracy of standard speaker recognition decreases considerably in the presence of far-field data, therefore, we devised two strategies to improve the results. First, we employed a microphone array (purposely positioned set of microphones) that is able to steer a virtual "beam" to the position of the speaker. We also performed system adaptation of different parts of the system (PLDA scoring and i-vector extraction). We have synthesized our training and test data from the standard NIST 2010 data by room simulation and we have shown that both techniques and their combination significantly improve the results. We have also dealt with joint speaker identity and position estimation. While the results in simulated outdoor environment (reverberation-free) are encouraging, the results from interiors (with reverberation) are mixed and require further investigation. Finally, we were able to test our system on a limited amount of real re-transmitted data. While the results for male speakers match the simulation, the results for females are not convincing and need further analysis.
Android aplikace pro dlouhodobé spolehlivé nahrávání audia
Chovancová, Simona ; Mošner, Ladislav (oponent) ; Szőke, Igor (vedoucí práce)
Cieľom tejto práce je implementácia robustnej aplikácie pre operačný systém Android, ktorá je schopná dlhodobého a spoľahlivého nahrávania audia prostredníctvom interného alebo externého mikrofónu. Zahŕňa aj implementáciu vzdialeného serveru, na ktorý aplikácia odosiela nahrané audio. V rámci riešenia je použitá technika nahrávania na Androide, riadenie odosielania pomocou viacerých vlákien a jednoduchý protokol na komunikáciu. Vytvorená aplikácia je v súlade so všetkými vyššie spomenutými požiadavkami.

Národní úložiště šedé literatury : Nalezeno 24 záznamů.   1 - 10dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.