National Repository of Grey Literature 24 records found  1 - 10nextend  jump to record: Search took 0.00 seconds. 
Interpretability of Neural Networks in Speech Processing
Sarvaš, Marek ; Mošner, Ladislav (referee) ; Žmolíková, Kateřina (advisor)
S rastúcou popularitou hlbokých neurónových sietí, nedostatok transparentnosti spôsobenejich funkciou čiernej skrinky, zvyšuje dopyt po ich interpretácii. Cieľom tejto práce je získať nový pohľad na hlboké neurónové siete v úlohách spracovania reči. Konkrétne klasifikácia pohlavia z AudioMNIST datasetu a klasifikácia rečníka z filter bánk VoxCeleb datasetu s použitím konvolučnej a reziduálnej neurónovej siete. Na interpretáciu týchto neurónových sietí bola použitá metóda propagácie relevancií cez vrstvy. Táto metóda vytvorí tepelnú mapu, ktorá vyznačí príznaky, ktoré prispeli ku správnej klasifikácii pozitívne a ktoré negatívne. Ako výsledky interpretácie ukazujú, klasifikácie boli založené najmä na nižších frekvenciách v reči a čase. V prípade klasifikácie pohlavia sa mi podarilo nájsť vysokú závislosť modelu na veľmi malom počte príznakov. Pomocou získaných informácií som vytvoril rozšírený trénovací set, ktorý zvýšil robustnosť modelu.
Learning the Face Behind a Voice
Zubalík, Petr ; Mošner, Ladislav (referee) ; Plchot, Oldřich (advisor)
The main goal of this thesis is to design and implement a system that will be able to generate a face based on the speech of a given person. This problem is solved using a system composed of three convolutional neural network models. The first one is based on the ResNet architecture and is used to extract features from speech recordings. The second model is a fully convolutional neural network which converts the extracted features into the styles which form a base for the final facial image. These styles are then passed as an input to the StyleGAN generator, which creates the resulting face. The proposed system is implemented in the Python programming language using the PyTorch framework. The last chapter of the thesis discusses some of the most significant experiments performed to fine-tune and test the developed system.
Speaker Verification without Feature Extraction
Lukáč, Peter ; Rohdin, Johan Andréas (referee) ; Mošner, Ladislav (advisor)
Verifikácia osôb je oblasť, ktorá sa stále modernizuje, zlepšuje a snaží sa vyhovieť požiadavkám, ktoré sa na ňu kladú vo oblastiach využitia ako sú autorizačné systmémy, forenzné analýzy, atď. Vylepšenia sa uskutočňujú vďaka pokrom v hlbokom učení, tvorením nových trénovacích a testovacích dátovych sad a rôznych súťaží vo verifikácií osôb a workshopov. V tejto práci preskúmame modely pre verifikáciu osôb bez extrakcie príznakov. Používanie nespracovaných zvukových stôp ako vstupy modelov zjednodušuje spracovávanie vstpu a teda znižujú sa výpočetné a pamäťové požiadavky a redukuje sa počet hyperparametrov potrebných pre tvorbu príznakov z nahrávok, ktoré ovplivňujú výsledky. Momentálne modely bez extrakcie príznakov nedosahujú výsledky modelov s extrakciou príznakov. Na základných modeloch budeme experimentovať s modernými technikamy a budeme sa snažiť zlepšiť presnosť modelov. Experimenty s modernými technikamy značne zlepšili výsledky základných modelov ale stále sme nedosiahli výsledky vylepšeného modelu s extrakciou príznakov. Zlepšenie je ale dostatočné nato aby sme vytovrili fúziu so s týmto modelom. Záverom diskutujeme dosiahnuté výsledky a navrhujeme zlepšenia na základe týchto výsledkov.
Room Acoustics Simulation Application
Krbila, Martin ; Szőke, Igor (referee) ; Mošner, Ladislav (advisor)
This thesis deals with simulation of room acoustics. The first part of this thesis contains theoretical description of existing aproaches to simulation of acoustics and compares their strenghts and weaknesses. For the purpose of impulse response calculation, several geometrical methods were implemented, such as ray tracing, image method and a combination of those two methods. Application with graphical and text user interface was created, to allow simulation of rooms with arbitrary geometry. The application also allows user to obtain impulse response in a form of a sound file, to visualize the results and the process of sound simulation and to perform auralization. The results of the simulation were compared with measured impulse responses of real rooms. The comparison showed, that the hybrid method is the most accurate of methods implemented in this thesis, and that the best results are achieved by simulation of empty medium-sized or large rooms.
System for a Room Acoustics Measurement
Stojan, Martin ; Mošner, Ladislav (referee) ; Szőke, Igor (advisor)
This work follows up on Marin Lach's thesis. It deals with Audified Audio Processing System. The work is about making control of the system more pleasant, testing the functionality of the system with eventual modifications, extending the current functionality and creating a web application to ease the collecting of metadata about the recording. It also contains manuals for dealing with the system and using the mentioned applications.
Learning Speech Separation Using Spatial Cues
Pavlus, Ján ; Mošner, Ladislav (referee) ; Žmolíková, Kateřina (advisor)
Tahle práce pojednává o~možnosti použití prostorových informací pro odhadnutí masek pro cíle, které je uvedeno v~článku \textit{Bootstrapping single-channel source separation via unsupervised spatial clustering on stereo mixtures}. Tahle myšlenka umožňuje použití neumělých náhrávek směsice signálů pro trénování systémů separace řečníků, které používají neuronové sítě. V~práci jsou zmíněny dvě trénovací metotody a to permutačně invariantní trénování a dále pak metoda deep clustering. Tyto metody jsou použity pro experimenty s~trénováním neuronových sítí s~použítím masek cílů, které jsou odhadnuty pomocí prostorové informace. Výsledkem práce je porovnání výsledků těchto experimentů s~výsledky výše zmíněného článku. Tohle porovnání ukázalo, že použití odhadnutých masek za pomoci prostorových informací, může vést ke kvalitnímu natrénování systému separace řečníků.
My 3D Printer
Mošner, Ladislav ; Klepárník, Petr (referee) ; Španěl, Michal (advisor)
This thesis deals with the topic of 3D printing. The primary aim was to build a real printer with a stiff construction minimizing clearance, which affects the accuracy and quality of printing. The design of the 3D printer and its parts was highly influenced by the RepRap project, especially by the Rostock printer using the delta kinematics and Fused Deposition Modeling. The printer electronics is based on the Arduino Mega 2560 platform running a modified Marlin firmware. It uses a newly designed extruder that should prevent a filament from melting in a guide tubule due to a large heatsink. The experiments carried out show that the accuracy of the printer is within +-0,1 mm.
Acoustic Detection of Speaker Position Using Microphone Array
Horázný, František ; Mošner, Ladislav (referee) ; Szőke, Igor (advisor)
This thesis describes the problem of determining the approximate position of a sound source in a coordinate system needed using the microphone field. It covers all possible variables influencing the detection of the sound source and explains the basic methods which can be used to determine the origin of the sound. The solution proposed in this thesis is to use synchronized static recordings and further modifications for running the program in real-time on the provided ARM/SHARC system, which has limited performance. This thesis contains also tests of the individual components and their parameters. The effect of changing these parameters on the behavior of the system is also shown in this thesis. Additionally, the developed application is used to perform the experiments demonstrating the shift of results during computation without any limitations and when running on the sound system. It also shows experiments with the resulting application, how the results change when calculating without performance limitation and when running on a sound card. Finally, this thesis gives several recommendations and assumptions on how to improve the results when using the program and how to eliminate several system limitations in unfavorable conditions.
Microphone Arrays for Speaker Recognition
Mošner, Ladislav ; Plchot, Oldřich (referee) ; Černocký, Jan (advisor)
Tato diplomová práce se zabývá problematikou vzdáleného rozpoznávání mluvčích. V případě dat zachycených odlehlým mikrofonem se přesnost standardního rozpoznávání značně snižuje, proto jsem navrhl dva přístupy pro zlepšení výsledků. Prvním z nich je použití mikrofonního pole (záměrně rozestavené sady mikrofonů), které je schopné nasměrovat virtuální "paprsek" na pozici řečníka. Dále jsem prováděl adaptaci komponent systému (PLDA skórování a extraktoru i-vektorů). S využitím simulace pokojových podmínek jsem syntetizoval trénovací a testovací data ze standardní datové sady NIST 2010. Ukázal jsem, že obě techniky a jejich kombinace vedou k výraznému zlepšení výsledků. Dále jsem se zabýval společným určením identity a pozice mluvčího. Zatímco výsledky ve venkovním simulovaném prostředí (bez ozvěn) jsou slibné, výsledky z interiéru (s ozvěnami) jsou smíšené a vyžadují další prozkoumání. Na závěr jsem mohl systémem vyhodnotit omezené množství reálných dat získaných přehráním a záznamem nahrávek ve skutečné místnosti. Zatímco výsledky pro mužské nahrávky odpovídají simulaci, výsledky pro ženské nahrávky nejsou přesvědčivé a vyžadují další analýzu.
Android Application for Long-Time Robust Audio Recording
Chovancová, Simona ; Mošner, Ladislav (referee) ; Szőke, Igor (advisor)
The purpose of this project is the implementation of a robust Android application capable of a long-term and reliable audio recording using internal or external microphone. It also includes implementation of a remote server where the application sends its recorded audio. The solution includes Android audio recording technique, data sending management using multiple threads and a simple communication protocol. The final product complies with all of the above-mentioned requirements.

National Repository of Grey Literature : 24 records found   1 - 10nextend  jump to record:
Interested in being notified about new results for this query?
Subscribe to the RSS feed.