Národní úložiště šedé literatury Nalezeno 11 záznamů.  1 - 10další  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Robustní rozpoznávání mluvčího pomocí neuronových sítí
Profant, Ján ; Rohdin, Johan Andréas (oponent) ; Matějka, Pavel (vedoucí práce)
Tématem této práce je analýza nejmodernějších systémů pro rozpoznávání řečníka za použití neurónových sítí (nazývaných x-vektory) v rozličných podmínkách, jako jsou širokopásmové a úzkopásmové data, který je robustní vůči neviděnému jazyku, specifickému hluku nebo telefonnimu kodeku. Automatický systém mapuje zvukovou nahrávku variabilní délky do fixně dlouhého vektoru, který je následně využit jako reprezentace řečníka. V této práci jsme porovnali systémy založené na neurónových sítich s výsledkem VUT týmu v Speakers in the Wild Speaker Recognition Challenge (SITW), který využíval donedávna velmi populární statistický model - i-vektory. Pozorovali jsme, že s nedávno publikovanými x-vektory dosahujeme 4.38 krát nižší Equal Error Rate pro SITW core-core evaluační sadu v porovnání s výsledkem z roku 2016 od VUT v SITW soutěži. Kromě toho jsme ukázali, že diarizace v nahrávkach s více mluvčími významně snižuje chybovost systému pro SITW core-multi evaluační data, ale podobný trend jsme neviděli pro dataset NIST SRE 2018 VAST.
Penetrační testy systému pro verifikaci řečníka
Nguyen, QuangTrang ; Rohdin, Johan Andréas (oponent) ; Plchot, Oldřich (vedoucí práce)
Cílem bakalářské práce je návrhnout sadu penetračních testů pro verifikaci řečníka s použítím syntézy řeči a dostupných nahrávek cílových mluvčí. Práce zahrnuje studium problematiky pro syntézu řeči, verifikace řečníka a metod pro spoofing se kterými můžeme setkat. Před samotným návrhem testovací sady je popsán systém a jeho komponenty, který byl použít v této práci. V posledních kapitolách práce je uveden popis návrhu testovacích sad a způsob realizace testů. Na závěru jsou vyhodnoceny výsledky a je odpovězeno na otázku, zda je možné prolomit systém pro verfikaci řečníka s využitím metody pro syntézu řeči.
Evaluation and Optimization of Computational Costs in Speaker Recognition Systems
Gregušová, Sabína ; Silnova, Anna (oponent) ; Rohdin, Johan Andréas (vedoucí práce)
The goal of this thesis is to propose an evaluation metric that includes computational costs. Computational costs generally do not pose a problem in research, but it can become problematic in a commercial production system, where speed is essential. The proposed metric extends existing evaluation framework from NIST and adds parameter for time unit and time unit cost. These metrics are applied on real ASV and experiments show the potential for further research and possible use. The experiments focus on reducing the computational cost by posing a limit on maximum length of the utterance, but also limiting number of frames for x-vector extraction. Both optimizations reduced the computational costs and reached favorable results for the new metrics. Finally, experiments' results are compared and each system modification is ranked according to the new metrics.
Agreements and Disagreements between Automatic and Human Speaker Recognition
Valenta, Jakub ; Matějka, Pavel (oponent) ; Rohdin, Johan Andréas (vedoucí práce)
This thesis deals with the problem of speaker recognition. The term is defined and individual methods related to it are described. The aim of the work is to point out the agreements and disagreements between human and automatic speaker recognition. At the beginning of the thesis, theoretical knowledge from both mentioned areas are described, i.e., what aspects of human speech do people, or automatic system respectively, focus on. Then, several experiments are performed to compare these two methods. These experiments are evaluated in such a way, that it is possible to observe which tasks can be better solved by people, in order to use the knowledge to improve the function of the automated system. At the end of the thesis, such an attempt to improve the automatic system is demonstrated and tested. Testing was successful and higher evaluation accuracy could be observed. Thus, such a result can be used in other research to allow further development in the field of automatic speaker recognition.
Speaker Verification without Feature Extraction
Lukáč, Peter ; Rohdin, Johan Andréas (oponent) ; Mošner, Ladislav (vedoucí práce)
Speaker verification is a field that is still improving its state of the art (SotA) and tries to meet the demands of its use in speaker authentication systems, forensic applications, etc. The improvements are made by the advancements in deep learning, the creation of new training and testing datasets and various speaker recognition challenges and speech workshops. In this thesis, we will explore models for speaker verification without feature extraction. Inputting the models with raw speaker waveform simplifies the pipeline of the systems, thus saving computational and memory resources and reducing the number of hyperparameters needed for creating the features from waveforms that affect the results. Currently, the models without feature extraction do not achieve the performance of the models with feature extraction. By applying various techniques to the models we will try to improve the baseline performance of the current models without feature extraction. The experiments with SotA techniques improved the performance of a model without feature extraction considerably however we still did not achieve the performance of a SotA model with feature extraction. However, the improvement is considerable enough so that we can use the improved model in a fusion with feature extraction model. We also discussed the experimental results and proposed improvements that aim to solve discovered limitations.
Application for Guitar Sound Separation from Music Recording
Holková, Natália ; Rohdin, Johan Andréas (oponent) ; Mošner, Ladislav (vedoucí práce)
This thesis aims to implement a model capable of separating guitar sounds from a recording and use it in a practical application. It was necessary to manually create our dataset from remixes of songs and modify the existing MedleyDB dataset for our purposes. We have chosen Demucs architecture as a basis for our neural network. We trained it from scratch to separate audio files into five distinct recordings containing drums, bass, vocals, guitars, and other accompaniment. We trained five models on MetaCentrum, which we evaluated objectively and subjectively. The implemented application serves as both a music player and an educational tool. The main feature is to allow users to listen to isolated instruments, for example, a guitar, and therefore more easily learn songs by ear. The application was subjected to user testing, and the knowledge learned will be used in future development.
Speaker Verification without Feature Extraction
Lukáč, Peter ; Rohdin, Johan Andréas (oponent) ; Mošner, Ladislav (vedoucí práce)
Speaker verification is a field that is still improving its state of the art (SotA) and tries to meet the demands of its use in speaker authentication systems, forensic applications, etc. The improvements are made by the advancements in deep learning, the creation of new training and testing datasets and various speaker recognition challenges and speech workshops. In this thesis, we will explore models for speaker verification without feature extraction. Inputting the models with raw speaker waveform simplifies the pipeline of the systems, thus saving computational and memory resources and reducing the number of hyperparameters needed for creating the features from waveforms that affect the results. Currently, the models without feature extraction do not achieve the performance of the models with feature extraction. By applying various techniques to the models we will try to improve the baseline performance of the current models without feature extraction. The experiments with SotA techniques improved the performance of a model without feature extraction considerably however we still did not achieve the performance of a SotA model with feature extraction. However, the improvement is considerable enough so that we can use the improved model in a fusion with feature extraction model. We also discussed the experimental results and proposed improvements that aim to solve discovered limitations.
Penetrační testy systému pro verifikaci řečníka
Nguyen, QuangTrang ; Rohdin, Johan Andréas (oponent) ; Plchot, Oldřich (vedoucí práce)
Cílem bakalářské práce je návrhnout sadu penetračních testů pro verifikaci řečníka s použítím syntézy řeči a dostupných nahrávek cílových mluvčí. Práce zahrnuje studium problematiky pro syntézu řeči, verifikace řečníka a metod pro spoofing se kterými můžeme setkat. Před samotným návrhem testovací sady je popsán systém a jeho komponenty, který byl použít v této práci. V posledních kapitolách práce je uveden popis návrhu testovacích sad a způsob realizace testů. Na závěru jsou vyhodnoceny výsledky a je odpovězeno na otázku, zda je možné prolomit systém pro verfikaci řečníka s využitím metody pro syntézu řeči.
Evaluation and Optimization of Computational Costs in Speaker Recognition Systems
Gregušová, Sabína ; Silnova, Anna (oponent) ; Rohdin, Johan Andréas (vedoucí práce)
The goal of this thesis is to propose an evaluation metric that includes computational costs. Computational costs generally do not pose a problem in research, but it can become problematic in a commercial production system, where speed is essential. The proposed metric extends existing evaluation framework from NIST and adds parameter for time unit and time unit cost. These metrics are applied on real ASV and experiments show the potential for further research and possible use. The experiments focus on reducing the computational cost by posing a limit on maximum length of the utterance, but also limiting number of frames for x-vector extraction. Both optimizations reduced the computational costs and reached favorable results for the new metrics. Finally, experiments' results are compared and each system modification is ranked according to the new metrics.
Robustní rozpoznávání mluvčího pomocí neuronových sítí
Profant, Ján ; Rohdin, Johan Andréas (oponent) ; Matějka, Pavel (vedoucí práce)
Tématem této práce je analýza nejmodernějších systémů pro rozpoznávání řečníka za použití neurónových sítí (nazývaných x-vektory) v rozličných podmínkách, jako jsou širokopásmové a úzkopásmové data, který je robustní vůči neviděnému jazyku, specifickému hluku nebo telefonnimu kodeku. Automatický systém mapuje zvukovou nahrávku variabilní délky do fixně dlouhého vektoru, který je následně využit jako reprezentace řečníka. V této práci jsme porovnali systémy založené na neurónových sítich s výsledkem VUT týmu v Speakers in the Wild Speaker Recognition Challenge (SITW), který využíval donedávna velmi populární statistický model - i-vektory. Pozorovali jsme, že s nedávno publikovanými x-vektory dosahujeme 4.38 krát nižší Equal Error Rate pro SITW core-core evaluační sadu v porovnání s výsledkem z roku 2016 od VUT v SITW soutěži. Kromě toho jsme ukázali, že diarizace v nahrávkach s více mluvčími významně snižuje chybovost systému pro SITW core-multi evaluační data, ale podobný trend jsme neviděli pro dataset NIST SRE 2018 VAST.

Národní úložiště šedé literatury : Nalezeno 11 záznamů.   1 - 10další  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.