National Repository of Grey Literature 11 records found  1 - 10next  jump to record: Search took 0.01 seconds. 
Robust Speaker Verification with Deep Neural Networks
Profant, Ján ; Rohdin, Johan Andréas (referee) ; Matějka, Pavel (advisor)
The objective of this work is to study state-of-the-art deep neural networks based speaker verification systems called x-vectors on various conditions, such as wideband and narrowband data and to develop the system, which is robust to unseen language, specific noise or speech codec. This system takes variable length audio recording and maps it into fixed length embedding which is afterward used to represent the speaker. We compared our systems to BUT's submission to Speakers in the Wild Speaker Recognition Challenge (SITW) from 2016, which used previously popular statistical models - i-vectors. We observed, that when comparing single best systems, with recently published x-vectors we were able to obtain more than 4.38 times lower Equal Error Rate on SITW core-core condition compared to SITW submission from BUT. Moreover, we find that diarization substantially reduces error rate when there are multiple speakers for SITW core-multi condition but we could not see the same trend on NIST SRE 2018 VAST data.
Penetration Tests of Speaker Verification System
Nguyen, QuangTrang ; Rohdin, Johan Andréas (referee) ; Plchot, Oldřich (advisor)
The aim of this bachelor thesis is to create a penetration tests of speaker verification system with the use of the speech synthesis method. This work studies methods of spoofing against automatic speaker verification system. Before designing of the test set, the system and it's components that were used in this work are described. The last chapters of this work include a description of the process of designing the test set, realization of the designed test and the last part contains evaluation of the results and answers the question if it is possible to penetrate a verification system with the use of speech synthesis.
Evaluation and Optimization of Computational Costs in Speaker Recognition Systems
Gregušová, Sabína ; Silnova, Anna (referee) ; Rohdin, Johan Andréas (advisor)
Cieľom tejto práce je navrhnúť hodnotiacu metriku, ktorá zahŕňa výpočetné náklady. Všeobecne výpočetné náklady nepredstavujú vo výskume problém, ale môžu byť problematické v komerčnom produkčnom systéme, kedy je rýchlosť dôležitá. Navrhnuté metriky rozširujú existujúci rámec pre hodnotenie od NIST a pridávajú k nim parametre pre časovú jednotku a náklady pre časovú jednotku. Tieto metriky sú aplikované na skutočný ASV a experimenty ukazujú potenciál pre hlbší výskum a možné použitie. Vrámci experimentov bola limitovaná maximálna dĺžka nahrávok, ale aj maximálne dĺžka rámcov pre spracovanie pri extrakcii x-vektorov. Obe optimalizácie znížili celkové výpočetné náklady a dosiahli priaznivé výsledky pre nové metriky. Na záver sú výsledky z experimentov porovnané a jednotlivé modifikácie ohodnotené a zoradené podľa nových metrík.
Agreements and Disagreements between Automatic and Human Speaker Recognition
Valenta, Jakub ; Matějka, Pavel (referee) ; Rohdin, Johan Andréas (advisor)
Tato práce se zabývá problémem rozpoznáváním mluvčího. Uvedený pojem je definován a doplněn o jednotlivé metody, které s ním souvisí. Cílem práce je poukázat na shody a rozdíly mezi lidským a automatickým procesem rozpoznávání mluvčího. V úvodu práce jsou popsány teoretické poznatky z obou zmíněných oblastí, tj. na jaké aspekty lidské řeči se zaměřuje člověk, resp. automatický systém. Následně je provedeno několik experimentů, které mají za úkol srovnat tyto dvě metody. Tyto experimenty jsou vyhodnoceny tak, že je možné pozorovat, které testovací úlohy dokáže lépe vyřešit člověk, aby následně bylo možné tyto poznatky použít ke zlepšení funkce automatického systému. V závěru práce je takovýto návrh na zlepšení automatického systému předveden a otestován. Testování proběhlo úspěšně a byla zaznamenána vyšší přesnost při vyhodnocování. Takový výsledek tedy může být užitý v dalších výzkumech a umožnit tak další vývoj v oblasti automatického rozpoznávání mluvčích.
Speaker Verification without Feature Extraction
Lukáč, Peter ; Rohdin, Johan Andréas (referee) ; Mošner, Ladislav (advisor)
Verifikácia osôb je oblasť, ktorá sa stále modernizuje, zlepšuje a snaží sa vyhovieť požiadavkám, ktoré sa na ňu kladú vo oblastiach využitia ako sú autorizačné systmémy, forenzné analýzy, atď. Vylepšenia sa uskutočňujú vďaka pokrom v hlbokom učení, tvorením nových trénovacích a testovacích dátovych sad a rôznych súťaží vo verifikácií osôb a workshopov. V tejto práci preskúmame modely pre verifikáciu osôb bez extrakcie príznakov. Používanie nespracovaných zvukových stôp ako vstupy modelov zjednodušuje spracovávanie vstpu a teda znižujú sa výpočetné a pamäťové požiadavky a redukuje sa počet hyperparametrov potrebných pre tvorbu príznakov z nahrávok, ktoré ovplivňujú výsledky. Momentálne modely bez extrakcie príznakov nedosahujú výsledky modelov s extrakciou príznakov. Na základných modeloch budeme experimentovať s modernými technikamy a budeme sa snažiť zlepšiť presnosť modelov. Experimenty s modernými technikamy značne zlepšili výsledky základných modelov ale stále sme nedosiahli výsledky vylepšeného modelu s extrakciou príznakov. Zlepšenie je ale dostatočné nato aby sme vytovrili fúziu so s týmto modelom. Záverom diskutujeme dosiahnuté výsledky a navrhujeme zlepšenia na základe týchto výsledkov.
Application for Guitar Sound Separation from Music Recording
Holková, Natália ; Rohdin, Johan Andréas (referee) ; Mošner, Ladislav (advisor)
Cieľom tejto práce bolo implementovať model na separáciu gitarového zvuku z nahrávky a použiť ho v praktickej aplikácii. Bolo nutné manuálne vytvoriť vlastný trénovací dataset z remixov piesní a upraviť existujúci MedleyDB dataset pre naše účely. Ako základ neurónovej siete sme si vybrali Demucs architektúru, ktorú sme od základu učili rozdeľovať audio súbory na celkovo päť samostatných nahrávok obsahujúcich bicie, basgitaru, vokály, gitaru a zvyšné nástroje. Celkovo sme na MetaCentre natrénovali päť rôznych modelov, ktoré boli objektívne aj subjektívne vyhodnotené. Implementovaná aplikácia slúži ako hudobný prehrávač a zároveň výučbový nástroj. Hlavnou funkcionalitou je, že umožňuje používateľovi počúvať izolovaný nástroj, napríklad gitaru, a vďaka tomu sa ľahšie učia piesne podľa sluchu. Aplikácia bola podrobená užívateľskému testovaniu a zistené poznatky budú využité pri ďalšom vývoji.
Speaker Verification without Feature Extraction
Lukáč, Peter ; Rohdin, Johan Andréas (referee) ; Mošner, Ladislav (advisor)
Verifikácia osôb je oblasť, ktorá sa stále modernizuje, zlepšuje a snaží sa vyhovieť požiadavkám, ktoré sa na ňu kladú vo oblastiach využitia ako sú autorizačné systmémy, forenzné analýzy, atď. Vylepšenia sa uskutočňujú vďaka pokrom v hlbokom učení, tvorením nových trénovacích a testovacích dátovych sad a rôznych súťaží vo verifikácií osôb a workshopov. V tejto práci preskúmame modely pre verifikáciu osôb bez extrakcie príznakov. Používanie nespracovaných zvukových stôp ako vstupy modelov zjednodušuje spracovávanie vstpu a teda znižujú sa výpočetné a pamäťové požiadavky a redukuje sa počet hyperparametrov potrebných pre tvorbu príznakov z nahrávok, ktoré ovplivňujú výsledky. Momentálne modely bez extrakcie príznakov nedosahujú výsledky modelov s extrakciou príznakov. Na základných modeloch budeme experimentovať s modernými technikamy a budeme sa snažiť zlepšiť presnosť modelov. Experimenty s modernými technikamy značne zlepšili výsledky základných modelov ale stále sme nedosiahli výsledky vylepšeného modelu s extrakciou príznakov. Zlepšenie je ale dostatočné nato aby sme vytovrili fúziu so s týmto modelom. Záverom diskutujeme dosiahnuté výsledky a navrhujeme zlepšenia na základe týchto výsledkov.
Penetration Tests of Speaker Verification System
Nguyen, QuangTrang ; Rohdin, Johan Andréas (referee) ; Plchot, Oldřich (advisor)
The aim of this bachelor thesis is to create a penetration tests of speaker verification system with the use of the speech synthesis method. This work studies methods of spoofing against automatic speaker verification system. Before designing of the test set, the system and it's components that were used in this work are described. The last chapters of this work include a description of the process of designing the test set, realization of the designed test and the last part contains evaluation of the results and answers the question if it is possible to penetrate a verification system with the use of speech synthesis.
Evaluation and Optimization of Computational Costs in Speaker Recognition Systems
Gregušová, Sabína ; Silnova, Anna (referee) ; Rohdin, Johan Andréas (advisor)
Cieľom tejto práce je navrhnúť hodnotiacu metriku, ktorá zahŕňa výpočetné náklady. Všeobecne výpočetné náklady nepredstavujú vo výskume problém, ale môžu byť problematické v komerčnom produkčnom systéme, kedy je rýchlosť dôležitá. Navrhnuté metriky rozširujú existujúci rámec pre hodnotenie od NIST a pridávajú k nim parametre pre časovú jednotku a náklady pre časovú jednotku. Tieto metriky sú aplikované na skutočný ASV a experimenty ukazujú potenciál pre hlbší výskum a možné použitie. Vrámci experimentov bola limitovaná maximálna dĺžka nahrávok, ale aj maximálne dĺžka rámcov pre spracovanie pri extrakcii x-vektorov. Obe optimalizácie znížili celkové výpočetné náklady a dosiahli priaznivé výsledky pre nové metriky. Na záver sú výsledky z experimentov porovnané a jednotlivé modifikácie ohodnotené a zoradené podľa nových metrík.
Robust Speaker Verification with Deep Neural Networks
Profant, Ján ; Rohdin, Johan Andréas (referee) ; Matějka, Pavel (advisor)
The objective of this work is to study state-of-the-art deep neural networks based speaker verification systems called x-vectors on various conditions, such as wideband and narrowband data and to develop the system, which is robust to unseen language, specific noise or speech codec. This system takes variable length audio recording and maps it into fixed length embedding which is afterward used to represent the speaker. We compared our systems to BUT's submission to Speakers in the Wild Speaker Recognition Challenge (SITW) from 2016, which used previously popular statistical models - i-vectors. We observed, that when comparing single best systems, with recently published x-vectors we were able to obtain more than 4.38 times lower Equal Error Rate on SITW core-core condition compared to SITW submission from BUT. Moreover, we find that diarization substantially reduces error rate when there are multiple speakers for SITW core-multi condition but we could not see the same trend on NIST SRE 2018 VAST data.

National Repository of Grey Literature : 11 records found   1 - 10next  jump to record:
Interested in being notified about new results for this query?
Subscribe to the RSS feed.