Národní úložiště šedé literatury Nalezeno 6 záznamů.  Hledání trvalo 0.02 vteřin. 
Improving Robustness of Speaker Recognition using Discriminative Techniques
Novotný, Ondřej ; Ferrer, Luciana (oponent) ; Pollák, Petr (oponent) ; Černocký, Jan (vedoucí práce)
This work deals with discriminative techniques in speaker verification systems to improve robustness of the systems against factors that negatively affect their performance. These factors include noise, reverberation, or the transmission channel. The thesis consists of two main parts. In the first part, it deals with a theoretical introduction to current state-of-the-art speaker verification systems. The recognition system's steps are described, starting from the extraction of acoustic features, the extraction of vector representations of recordings, and the final recognition score computation. Particular emphasis is paid to the techniques of extraction of a vector representation of a recording, where we describe two different paradigms: the i-vectors and the x-vectors. The second part of the work focuses more on discriminative techniques to increase robustness. Their description is organized to match the gradual passage of the recording through the verification system. First, attention is paid to signal pre-processing using a neural network for noise reduction and speech enhancement. This pre-processing is a universal technique independent of the verification system. The work follows by focusing on the use of a discriminative approach in the extraction of features and the extraction of vector representations of recordings. Furthermore, this work sheds light on the transition from generative systems to discriminative systems. In order to give a fuller context, the work also describes techniques that had historically preceded this transition. All presented techniques are always experimentally verified and their advantages evaluated. We are proposing several techniques that have proved successful in both the generative approach in the form of i-vectors and discriminative x-vectors, and thanks to them, considerable improvement has been achieved. For completeness, in the field of robustness, other techniques are included in the work, such as normalization of scores or multi-condition training. Finally, the work deals with the robustness of discriminative systems in terms of data used in their training.
Iterativní zdokonalování přepisu zvukových nahrávek s využitím zpětné vazby posluchačů
Krůza, Jan Oldřich ; Kuboň, Vladislav (vedoucí práce) ; Pollák, Petr (oponent) ; Müller, Luděk (oponent)
Iterativní zdokonalování přepisu zvukových nahrávek s využitím zpětné vazby posluchačů Abstrakt Tato disertační práce se zabývá zpřístupněním zvukových záznamů jednoho mluv- čího úzké i široké veřejnosti. Motivací práce byla existence chátrajících nahrávek hovorů českého filozofa ing. Karla Makoně na kazetách a kotoučích. Cílem je zachování materiálu pro bu- doucí generace a zpřístupnění nahrávek pomocí digitálních technologií, především přístupnosti nahrávek na internetu a možnosti vyhledávání v nich. Práce představuje tvorbu systému pro přepis velké sady zvukových záznamů se zapojením laické komunity. Navržené řešení spočívá ve vytvoření základního přepisu nízké kvality pomocí automatického rozpoznávání řeči a vyvinutí aplikace, která umožní od členů komunity i nahodilých zájemců získávat opravy automa- tického přepisu, použitelné jako trénovací data pro další zlepšování. Popíše se samotný mluvený korpus. Představí se autor a jeho dílo, témata v nahrávkách, nahrávání samotné, digitalizace a získané přepisy. Dále se rozvede tvorba systému pro automatický přepis korpusu od sběru dat přes akustické a jazykové modelování, různé provedené experimenty až k vyhodnocení úspěšnosti. V neposlední řadě se popíše webová aplikace pro sběr manuálních přepisů. Zmíní se odlišnosti od ostatních systémů, detaily návrhu a...
Iterativní zdokonalování přepisu zvukových nahrávek s využitím zpětné vazby posluchačů
Krůza, Jan Oldřich ; Kuboň, Vladislav (vedoucí práce) ; Müller, Luděk (oponent) ; Pollák, Petr (oponent)
Iterativní zdokonalování přepisu zvukových nahrávek s využitím zpětné vazby posluchačů Abstrakt Tato disertační práce se zabývá zpřístupněním zvukových záznamů jednoho mluv- čího úzké i široké veřejnosti. Motivací práce byla existence chátrajících nahrávek hovorů českého filozofa ing. Karla Makoně na kazetách a kotoučích. Cílem je zachování materiálu pro bu- doucí generace a zpřístupnění nahrávek pomocí digitálních technologií, především přístupnosti nahrávek na internetu a možnosti vyhledávání v nich. Práce představuje tvorbu systému pro přepis velké sady zvukových záznamů se zapojením laické komunity. Navržené řešení spočívá ve vytvoření základního přepisu nízké kvality pomocí automatického rozpoznávání řeči a vyvinutí aplikace, která umožní od členů komunity i nahodilých zájemců získávat opravy automa- tického přepisu, použitelné jako trénovací data pro další zlepšování. Popíše se samotný mluvený korpus. Představí se autor a jeho dílo, témata v nahrávkách, nahrávání samotné, digitalizace a získané přepisy. Dále se rozvede tvorba systému pro automatický přepis korpusu od sběru dat, přes akustické a jazykové modelování, různé provedené experimenty až k vyhodnocení úspěšnosti. V neposlední řadě se popíše webová aplikace pro sběr manuálních přepisů. Zmíní se odlišnosti od ostatních systémů, detaily návrhu a...
Improving Robustness of Speaker Recognition using Discriminative Techniques
Novotný, Ondřej ; Ferrer, Luciana (oponent) ; Pollák, Petr (oponent) ; Černocký, Jan (vedoucí práce)
This work deals with discriminative techniques in speaker verification systems to improve robustness of the systems against factors that negatively affect their performance. These factors include noise, reverberation, or the transmission channel. The thesis consists of two main parts. In the first part, it deals with a theoretical introduction to current state-of-the-art speaker verification systems. The recognition system's steps are described, starting from the extraction of acoustic features, the extraction of vector representations of recordings, and the final recognition score computation. Particular emphasis is paid to the techniques of extraction of a vector representation of a recording, where we describe two different paradigms: the i-vectors and the x-vectors. The second part of the work focuses more on discriminative techniques to increase robustness. Their description is organized to match the gradual passage of the recording through the verification system. First, attention is paid to signal pre-processing using a neural network for noise reduction and speech enhancement. This pre-processing is a universal technique independent of the verification system. The work follows by focusing on the use of a discriminative approach in the extraction of features and the extraction of vector representations of recordings. Furthermore, this work sheds light on the transition from generative systems to discriminative systems. In order to give a fuller context, the work also describes techniques that had historically preceded this transition. All presented techniques are always experimentally verified and their advantages evaluated. We are proposing several techniques that have proved successful in both the generative approach in the form of i-vectors and discriminative x-vectors, and thanks to them, considerable improvement has been achieved. For completeness, in the field of robustness, other techniques are included in the work, such as normalization of scores or multi-condition training. Finally, the work deals with the robustness of discriminative systems in terms of data used in their training.
Iterativní zdokonalování přepisu zvukových nahrávek s využitím zpětné vazby posluchačů
Krůza, Jan Oldřich ; Kuboň, Vladislav (vedoucí práce) ; Müller, Luděk (oponent) ; Pollák, Petr (oponent)
Iterativní zdokonalování přepisu zvukových nahrávek s využitím zpětné vazby posluchačů Abstrakt Tato disertační práce se zabývá zpřístupněním zvukových záznamů jednoho mluv- čího úzké i široké veřejnosti. Motivací práce byla existence chátrajících nahrávek hovorů českého filozofa ing. Karla Makoně na kazetách a kotoučích. Cílem je zachování materiálu pro bu- doucí generace a zpřístupnění nahrávek pomocí digitálních technologií, především přístupnosti nahrávek na internetu a možnosti vyhledávání v nich. Práce představuje tvorbu systému pro přepis velké sady zvukových záznamů se zapojením laické komunity. Navržené řešení spočívá ve vytvoření základního přepisu nízké kvality pomocí automatického rozpoznávání řeči a vyvinutí aplikace, která umožní od členů komunity i nahodilých zájemců získávat opravy automa- tického přepisu, použitelné jako trénovací data pro další zlepšování. Popíše se samotný mluvený korpus. Představí se autor a jeho dílo, témata v nahrávkách, nahrávání samotné, digitalizace a získané přepisy. Dále se rozvede tvorba systému pro automatický přepis korpusu od sběru dat, přes akustické a jazykové modelování, různé provedené experimenty až k vyhodnocení úspěšnosti. V neposlední řadě se popíše webová aplikace pro sběr manuálních přepisů. Zmíní se odlišnosti od ostatních systémů, detaily návrhu a...
Identifikace mluvčího v temporální doméně řeči
Weingartová, Lenka ; Volín, Jan (vedoucí práce) ; Skarnitzl, Radek (oponent) ; Pollák, Petr (oponent)
Tato práce si klade za cíl zevrubně popsat temporální charakteristiky mluvené češtiny prostřednictvím trvání hlásek a jejich změn pod vlivem několika prozodických i segmentálních faktorů, jako je pozice ve vyšší jednotce (slabice, slově či prozodické frázi), délka vyšší jednotky, hláskové okolí, struktura slabiky či frázové zpomalování. Řečový materiál pochází z korpusu semispontánních dialogů, který obsahuje 4046 promluv od 34 mluvčích. Deskripce jsou následně využity pro vytvoření temporálního modelu založeného na pravidlech, který slouží jako srovnávací báze pro analýzu kontur lokálního artikulačního tempa a jejich specifičnosti pro mluvčího. Výsledky naznačují, že systematické rozdíly mezi mluvčími se dají nalézt jak v segmentální doméně, tak i v temporálních konturách. Dále je také posouzen potenciál artikulačního tempa a globálních temporálních ukazatelů pro indentifikaci mluvčího. Klíčová slova: temporální charakteristiky, temporální modelování, trvání hlásek, identifikace mluvčího, čeština

Viz též: podobná jména autorů
4 Pollak, Patrik
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.