Národní úložiště šedé literatury Nalezeno 28 záznamů.  předchozí9 - 18další  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Analýza audio hovoru mezi dvěma účastníky
Polok, Alexander ; Plchot, Oldřich (oponent) ; Matějka, Pavel (vedoucí práce)
Cílem této práce je analýza psychoterapeutických sezení. Z audionahrávek jsou extrahovány klasifikátory, které popisují proběhlou terapii. Ty jsou následně agregovány, porovnány s ostatními sezeními a graficky prezentovány v podobě zprávy shrnující daný rozhovor. Terapeutům je tímto způsobem k proběhlým sezením poskytnuta zpětná vazba, která může sloužit k profesnímu růstu a kvalitnější psychoterapii v budoucnu.
Shluková analýza v oblasti číslicového zpracování patologické řeči
Čapek, Karel ; Mžourek, Zdeněk (oponent) ; Galáž, Zoltán (vedoucí práce)
Tato bakalářská práce se zabývá výpočtem parametrů kvantifikujících degradaci řečové produkce způsobenou přítomností určité řečové patologie a následným rozřazením uvažovaných patologií do skupin pomocí algoritmu k-means. Účelem bylo nalezení skupin patologií, které navzdory možnému rozdílnému původu v podobné míře postihují fonační a artikulační schopnosti řečníka a znehodnocují kvalitu řeči jako takové. V práci bylo využito fonaci hlásky „a“, jako nejběžněji se vyskytujícího řečového cvičení, kvůli své odolnosti vůči demografickým a lingvistickým charakteristikám jednotlivých řečníků. Dále je na parametry uplatněna předběžná analýza, která má za úkol vybrat parametry nejlépe charakterizující degradaci řečové promluvy. Nakonec jsou tyto vybrané parametry použity pro nalezení výsledných dělení patologií pomocí algoritmu k-means.
Codec Detection from Speech
Jon, Josef ; Matějka, Pavel (oponent) ; Černocký, Jan (vedoucí práce)
This thesis deals with codec detection from compressed speech signal. The primary goal was to identify which features distinguish selected codecs, and then create an environment facilitating experiments with various types of classifiers and their configurations. Support vector machines and neural networks, modeled using the Keras library, were used. The main contribution of this work is the experimental part, in which the effects of the neural networks parameters are discussed. After tuning the parameters and finding their optimal values, the network achieved accuracy over 98% on a test set comprising data from six different codecs.
Tvorba zvuku v technologii VST
Švec, Michal ; Schimmel, Jiří (oponent) ; Černocký, Jan (vedoucí práce)
Tato diplomová práce se zabývá problematikou digitální zvukové syntézy. Jejím hlavním úkolem bylo navrhnout a implementovat nový zvukový syntezátor. Vytvořený nástroj využívá různé přístupy k syntéze zvuku, proto je ho možné označit jako hybridní. Návrh nástroje byl inspirován existujícími audio syntezátory. Pro implementaci byl zvolen jazyk C++ a technologie VST od společnosti Steinberg. Jako rozšíření byl navržen a realizován modul, který dokáže zpracovat hlasový nebo textový vstup a na jeho základě vytvořit MIDI soubor, který je možné pomocí syntezátoru interpretovat. Pro tento modul je použitý jazyk Python. K vytvořenému syntezátoru vzniklo i jednoduché uživatelské rozhraní.
Separace mluvčích v časové doméně pomocí neuronové sítě
Peška, Jiří ; Černocký, Jan (oponent) ; Žmolíková, Kateřina (vedoucí práce)
Práce se zabývá využitím konvolučních neuronových sítí pro automatickou separaci mluvčích v akustickém prostředí. Cílem je implementovat neuronovou síť podle architektury TasNet za použití frameworku PyTorch, natrénovat síť s různými hodnotami hyperparametrů a porovnat kvalitu separací vzhledem k velikosti síťě.   Architektura oproti dosavadním metodám, které převáděly vstupní směs do časově-frekvenční reprezentace, používá konvoluční autoenkodér, který vstupní směs převádí do nezáporné reprezentace, která je optimalizovaná pro extrakci jednotlivých mluvčích. Samotné separace je docíleno aplikací masek, které jsou odhadnuty v separačním modulu. Modul tvoří opakující se posloupnost konvolučních bloků se zvyšující se dilatací, která napomáhá k modelování časových závislostí ve zpracovávané směsi.   K vyhodnocení přesnosti byly použity metriky signal to distortion ratio (SDR), dále perceptual evaluation of speech quality (PESQ) a short-time objective intelligibility (STOI). Trénování a vyhodnocování proběhlo za použití Wall Street Journal datasetu (WSJ0). Natrénováním několika modelů s různými hodnotami hyperparametrů bylo možno pozorovat závislost mezi velikostí sítě a hodnotou SDR. Zatímco menší síť dosahovala, po 60 epochách trénování, přesnosti 10.8 dB, větší síť dosahovala až 12.71 dB.
Analýza entit v psychoterapeutických sezeních
Polok, Alexander ; Karafiát, Martin (oponent) ; Matějka, Pavel (vedoucí práce)
Tato práce se zabývá analýzou psychoterapeutických sezení v rámci výzkumného projektu DeePsy. Jejím cílem je navrhnout a vytvořit sadu příznaků modelujících průběh sezení, jež mohou odhalit na první pohled nepatrné nuance. Zmíněné příznaky jsou automaticky extrahovány ze zdrojové nahrávky s využitím hlubokých neuronových sítí. Příznaky jsou zpracovány, porovnány napříč sezeními a graficky zobrazeny, čímž vzniká dokument plnící roli zpětné vazby o sezení pro terapeuta. Tato zpětná vazba může posloužit k profesnímu růstu a kvalitnější psychoterapii v budoucnu. Bylo dosaženo relativního zlepšení detekce řečové aktivity o 37,82 %. Byl zobecněn diarizační systém VBx ke konvergenci ke dvěma mluvčím s minimálním relativním zhoršením chybovosti o 0,66 %. Byl natrénován systém pro automatické rozpoznávání řeči, jehož chybovost je o 17,06 % relativně lepší než nejlepší dostupný hybridní model. Dále byly natrénovány systémy pro klasifikaci sentimentu, typu terapeutických intervencí a detekci překrývající se řeči.
Odhad obličeje z řečového signálu
Zubalík, Petr ; Mošner, Ladislav (oponent) ; Plchot, Oldřich (vedoucí práce)
Hlavním cílem této diplomové práce bylo navrhnout a implementovat systém, který bude schopný odhadnout obličej na základě řeči daného člověka. Tento problém je vyřešen pomocí systému složeného ze tří modelů konvolučních neuronových sítí. První z nich je založen na architektuře ResNet a slouží pro extrahování příznaků z hlasových nahrávek. Druhým modelem je plně konvoluční neuronová síť, která převádí tyto příznaky na styly, na základě kterých bude upravován výsledný obrázek obličeje. Získané styly jsou poté předávány na vstup generátoru StyleGAN pro vygenerování výsledného obličeje. Navržený systém je implementován v programovacím jazyce Python s využitím frameworku PyTorch. V poslední kapitole práce je rozebráno a vyhodnoceno několik důležitých experimentů prováděných v rámci ladění a testování vytvořeného systému.
Analýza audio hovoru mezi dvěma účastníky
Polok, Alexander ; Plchot, Oldřich (oponent) ; Matějka, Pavel (vedoucí práce)
Cílem této práce je analýza psychoterapeutických sezení. Z audionahrávek jsou extrahovány klasifikátory, které popisují proběhlou terapii. Ty jsou následně agregovány, porovnány s ostatními sezeními a graficky prezentovány v podobě zprávy shrnující daný rozhovor. Terapeutům je tímto způsobem k proběhlým sezením poskytnuta zpětná vazba, která může sloužit k profesnímu růstu a kvalitnější psychoterapii v budoucnu.
Separace mluvčích v časové doméně pomocí neuronové sítě
Peška, Jiří ; Černocký, Jan (oponent) ; Žmolíková, Kateřina (vedoucí práce)
Práce se zabývá využitím konvolučních neuronových sítí pro automatickou separaci mluvčích v akustickém prostředí. Cílem je implementovat neuronovou síť podle architektury TasNet za použití frameworku PyTorch, natrénovat síť s různými hodnotami hyperparametrů a porovnat kvalitu separací vzhledem k velikosti síťě.   Architektura oproti dosavadním metodám, které převáděly vstupní směs do časově-frekvenční reprezentace, používá konvoluční autoenkodér, který vstupní směs převádí do nezáporné reprezentace, která je optimalizovaná pro extrakci jednotlivých mluvčích. Samotné separace je docíleno aplikací masek, které jsou odhadnuty v separačním modulu. Modul tvoří opakující se posloupnost konvolučních bloků se zvyšující se dilatací, která napomáhá k modelování časových závislostí ve zpracovávané směsi.   K vyhodnocení přesnosti byly použity metriky signal to distortion ratio (SDR), dále perceptual evaluation of speech quality (PESQ) a short-time objective intelligibility (STOI). Trénování a vyhodnocování proběhlo za použití Wall Street Journal datasetu (WSJ0). Natrénováním několika modelů s různými hodnotami hyperparametrů bylo možno pozorovat závislost mezi velikostí sítě a hodnotou SDR. Zatímco menší síť dosahovala, po 60 epochách trénování, přesnosti 10.8 dB, větší síť dosahovala až 12.71 dB.
Clustering a load balancing serveru pro zpracování řeči
Trnka, Miroslav
Tato práce se zabývá možnostmi load balancingu a clusteringu existujícího serveru pro zpracování řeči. V práci je rozebrána problematika load balancingu a clusteringu. Dále jsou zde popsány koncepty síťového programování a možnosti zpracování I/O. Rovněž je zde vytvořen návrh nově vzniklého load balanceru přizpůsobeného na míru potřebám serveru pro zpracování řeči. Tento nově navržený load balancer je implementován a podrobně testován.

Národní úložiště šedé literatury : Nalezeno 28 záznamů.   předchozí9 - 18další  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.