Mošner, Ladislav - Výsledky hledání - Digitální repozitář

host :: přihlásit Digitální repozitář
		Hledej		Nový záznam		Nápověda		O repozitáři

Hlavní stránka > Výsledky hledání: Mošner, Ladislav

Hledej:

Tipy pro vyhledávaní :: Rozšířené hledání

Hledej ve sbírkách:

Seřadit podle:	Zobrazit výsledky:	Výstupní formát:

	Machine learning in audio effects Sychra, Jakub ; Mošner, Ladislav (oponent) ; Černocký, Jan (vedoucí práce) Reverse engineering audio effects from mixed tracks is a complex topic requiring signal processing and music engineering experience. This work aims at creation of a system capable of identifying the sequence and parameters of guitar effects from a mixed audio track. Training data was created using clean guitar sounds from IDMT-SMT-Audio-Effects, augmented by known effects (BitCrush, Chorus, Clipping, Compressor, Delay, Distortion, High-pass filter, Ladder filter, Low-pass filter, Limiter, Phaser and Reverb), all implemented with a Python wrapper around standard VST effects. The system is based on VGGish neural network architecture with several classification (presence of effects) and regression (parameters of effects) heads. The performance of the algorithm is evaluated on classification and regression accuracy, as well as in informal listening tests. Úplný záznam
	Audiovizuální rozpoznávání osoby Bahounek, Ondřej ; Mošner, Ladislav (oponent) ; Plchot, Oldřich (vedoucí práce) Tahle práce se zabývá audiovizuální verifikací osoby ve videu nebo ze snímku obličeje a hlasové nahrávky. Modely využívají fúze hlasových a obličejových embeddingů. Modely přidělují váhy oběma modalitám, podle nichž kladou větší pozornost na jednu z nich. Výsledky modelů se vyznačují dobrou odolností proti poškození jedné z modalit. Úplný záznam
	Interpretability of Neural Networks in Speech Processing Sarvaš, Marek ; Mošner, Ladislav (oponent) ; Žmolíková, Kateřina (vedoucí práce) With the growing popularity of deep neural networks, the lack of transparency caused by their black box representation is raising demand for their interpretability. The goal of this thesis is to gain new insights into deep neural networks in speech processing tasks. Specifically, gender classification task on AudioMNIST dataset and speaker classification task on filterbanks from VoxCeleb dataset using convolutional and residual neural network. Layer-wise relevance propagation was used for the interpretation of these neural networks. This method produced heatmaps highlighting features that contributed positively and negatively to the correct classification. As results of interpretation show, classifications were mainly based on lower frequencies in time. In the case of gender classification, I managed to find the model's high dependency on a small number of features. Using obtained information, I created an augmented training set that increased the model's robustness. Úplný záznam
	Odhad obličeje z řečového signálu Zubalík, Petr ; Mošner, Ladislav (oponent) ; Plchot, Oldřich (vedoucí práce) Hlavním cílem této diplomové práce bylo navrhnout a implementovat systém, který bude schopný odhadnout obličej na základě řeči daného člověka. Tento problém je vyřešen pomocí systému složeného ze tří modelů konvolučních neuronových sítí. První z nich je založen na architektuře ResNet a slouží pro extrahování příznaků z hlasových nahrávek. Druhým modelem je plně konvoluční neuronová síť, která převádí tyto příznaky na styly, na základě kterých bude upravován výsledný obrázek obličeje. Získané styly jsou poté předávány na vstup generátoru StyleGAN pro vygenerování výsledného obličeje. Navržený systém je implementován v programovacím jazyce Python s využitím frameworku PyTorch. V poslední kapitole práce je rozebráno a vyhodnoceno několik důležitých experimentů prováděných v rámci ladění a testování vytvořeného systému. Úplný záznam
	Speaker Verification without Feature Extraction Lukáč, Peter ; Rohdin, Johan Andréas (oponent) ; Mošner, Ladislav (vedoucí práce) Speaker verification is a field that is still improving its state of the art (SotA) and tries to meet the demands of its use in speaker authentication systems, forensic applications, etc. The improvements are made by the advancements in deep learning, the creation of new training and testing datasets and various speaker recognition challenges and speech workshops. In this thesis, we will explore models for speaker verification without feature extraction. Inputting the models with raw speaker waveform simplifies the pipeline of the systems, thus saving computational and memory resources and reducing the number of hyperparameters needed for creating the features from waveforms that affect the results. Currently, the models without feature extraction do not achieve the performance of the models with feature extraction. By applying various techniques to the models we will try to improve the baseline performance of the current models without feature extraction. The experiments with SotA techniques improved the performance of a model without feature extraction considerably however we still did not achieve the performance of a SotA model with feature extraction. However, the improvement is considerable enough so that we can use the improved model in a fusion with feature extraction model. We also discussed the experimental results and proposed improvements that aim to solve discovered limitations. Úplný záznam
	Aplikace pro simulaci akustiky místnosti Krbila, Martin ; Szőke, Igor (oponent) ; Mošner, Ladislav (vedoucí práce) Tato práce se zabývá simulací akustiky místností. V práci jsou nejprve teoreticky popsány existující přístupy k simulaci akustiky a srovnány jejich přednosti a nevýhody. K výpočtu odezvy místnosti bylo implementováno několik geometrických metod jako ray tracing a obrazová metoda, ale i kombinace těchto metod. Byla vytvořena aplikace s grafickým i textovým uživatelským rozhraním, která umožňuje provést simulaci v místnosti libovolného tvaru. Aplikace také umožňuje získat odezvu ve formě zvukového souboru, znázornit uživateli výsledky a postup simulace a provést auralizaci. Výstupy simulace byly porovnány s naměřenými odezvami skutečných místností. Při porovnání se ukázalo, že nejvyšší přesnosti z implementovaných metod dosahuje hybridní metoda ve středních nebo větších prázdných místnostech. Úplný záznam
	Systém pro měření akustických vlastností místností Stojan, Martin ; Mošner, Ladislav (oponent) ; Szőke, Igor (vedoucí práce) Tato práce navazuje na diplomovou práci pana Martina Lacha. Zabývá se systémem na zpracování audia od firmy Audified. Práce pojednává o zpříjemnění ovládání systému, testování funkcí systému s případnými modifikacemi, rozšíření současné funkcionality a vytvoření webové aplikace pro usnadnění zaznamenávání metadat o nahrávání. Také obsahuje návody pro zacházení se systémem a používání zmíněných aplikací. Úplný záznam
	Learning Speech Separation Using Spatial Cues Pavlus, Ján ; Mošner, Ladislav (oponent) ; Žmolíková, Kateřina (vedoucí práce) This thesis discusses the idea of using spatial cues in speech separation for estimating target masks, that is stated in article \textit{Bootstrapping single-channel source separation via unsupervised spatial clustering on stereo mixtures}. This idea may make it possible to use real-world mixtures for the training of speech separation systems, which use neural networks. In the thesis two training methods, permutation invariant training and deep clustering method are mentioned and used for experiments with training neural networks using target masks estimated by spatial cues. The result of the work is a comparison of the results of these experiments with the results of the above-mentioned article. This comparison showed that the use of estimated masks with the help of spatial information can lead to a quality training of the speaker separation system. Úplný záznam
	Vlastní 3D tiskárna Mošner, Ladislav ; Klepárník, Petr (oponent) ; Španěl, Michal (vedoucí práce) Tato práce se zabývá tématem 3D tisku. Hlavním cílem bylo vytvoření reálné tiskárny s tuhou konstrukcí snižující vliv vůlí na přesnost a kvalitu tisku. Návrh 3D tiskárny a jejích částí zaznamenal značné ovlivnění projektem RepRap, zejména strojem Rostock stavícím na delta kinematice a Fused Deposition Modeling. Výsledná tiskárna využívá platformu Arduino Mega 2560, na níž běží modifikovaný firmware Marlin, a vlastní konstrukci extrudéru, který by měl zabránit tavení plastové struny ve vodicí trubičce díky velkému chladiči. Experimentálně byla vyhodnocena přesnost 3D tiskárny, která se pohybuje v rozmezí +-0,1 mm. Úplný záznam
	Akustická detekce pozice řečníka pomocí mikrofonního pole Horázný, František ; Mošner, Ladislav (oponent) ; Szőke, Igor (vedoucí práce) Tato práce se zabývá problematikou určení přibližné polohy zdroje zvuku v souřadném systému pomocí mikrofonního pole. Zabývá se všemi vlivy na určení polohy pomocí audio signálů. Vysvětluje základní principy metod, které jsou využity pro detekci zdroje zvuku. Je zde uveden návrh řešení pro synchronizované statické nahrávky a dále úprava pro běh v reálném čase na sestavě systému ARM/SHARC, která má omezený výkon. Součástí řešení je také testování jednotlivých komponent a jejich parametrů. Znázorňuje vliv změn těchto parametrů na chování systému. Současně jsou popsány experimenty s výslednou aplikací ukazující změnu výsledků při výpočtu bez výkonnostního omezení a při běhu na zvukové kartě. Na závěr jsou uvedena doporučení a předpoklady jak docílit lepších výsledků při využívání programu a jak eliminovat omezení systému za nepříznivých podmínek. Úplný záznam

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.

Digitální repozitář :: :: :: ::
Powered by v1.1.2
Spravuje

Tato stránka je dostupná také v následujících jazycích:
Česky English