Národní úložiště šedé literatury Nalezeno 28 záznamů.  předchozí11 - 20další  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Codec Detection from Speech
Jon, Josef ; Matějka, Pavel (oponent) ; Černocký, Jan (vedoucí práce)
This thesis deals with codec detection from compressed speech signal. The primary goal was to identify which features distinguish selected codecs, and then create an environment facilitating experiments with various types of classifiers and their configurations. Support vector machines and neural networks, modeled using the Keras library, were used. The main contribution of this work is the experimental part, in which the effects of the neural networks parameters are discussed. After tuning the parameters and finding their optimal values, the network achieved accuracy over 98% on a test set comprising data from six different codecs.
Tvorba zvuku v technologii VST
Švec, Michal ; Schimmel, Jiří (oponent) ; Černocký, Jan (vedoucí práce)
Tato diplomová práce se zabývá problematikou digitální zvukové syntézy. Jejím hlavním úkolem bylo navrhnout a implementovat nový zvukový syntezátor. Vytvořený nástroj využívá různé přístupy k syntéze zvuku, proto je ho možné označit jako hybridní. Návrh nástroje byl inspirován existujícími audio syntezátory. Pro implementaci byl zvolen jazyk C++ a technologie VST od společnosti Steinberg. Jako rozšíření byl navržen a realizován modul, který dokáže zpracovat hlasový nebo textový vstup a na jeho základě vytvořit MIDI soubor, který je možné pomocí syntezátoru interpretovat. Pro tento modul je použitý jazyk Python. K vytvořenému syntezátoru vzniklo i jednoduché uživatelské rozhraní.
Separace mluvčích v časové doméně pomocí neuronové sítě
Peška, Jiří ; Černocký, Jan (oponent) ; Žmolíková, Kateřina (vedoucí práce)
Práce se zabývá využitím konvolučních neuronových sítí pro automatickou separaci mluvčích v akustickém prostředí. Cílem je implementovat neuronovou síť podle architektury TasNet za použití frameworku PyTorch, natrénovat síť s různými hodnotami hyperparametrů a porovnat kvalitu separací vzhledem k velikosti síťě.   Architektura oproti dosavadním metodám, které převáděly vstupní směs do časově-frekvenční reprezentace, používá konvoluční autoenkodér, který vstupní směs převádí do nezáporné reprezentace, která je optimalizovaná pro extrakci jednotlivých mluvčích. Samotné separace je docíleno aplikací masek, které jsou odhadnuty v separačním modulu. Modul tvoří opakující se posloupnost konvolučních bloků se zvyšující se dilatací, která napomáhá k modelování časových závislostí ve zpracovávané směsi.   K vyhodnocení přesnosti byly použity metriky signal to distortion ratio (SDR), dále perceptual evaluation of speech quality (PESQ) a short-time objective intelligibility (STOI). Trénování a vyhodnocování proběhlo za použití Wall Street Journal datasetu (WSJ0). Natrénováním několika modelů s různými hodnotami hyperparametrů bylo možno pozorovat závislost mezi velikostí sítě a hodnotou SDR. Zatímco menší síť dosahovala, po 60 epochách trénování, přesnosti 10.8 dB, větší síť dosahovala až 12.71 dB.
Analýza entit v psychoterapeutických sezeních
Polok, Alexander ; Karafiát, Martin (oponent) ; Matějka, Pavel (vedoucí práce)
Tato práce se zabývá analýzou psychoterapeutických sezení v rámci výzkumného projektu DeePsy. Jejím cílem je navrhnout a vytvořit sadu příznaků modelujících průběh sezení, jež mohou odhalit na první pohled nepatrné nuance. Zmíněné příznaky jsou automaticky extrahovány ze zdrojové nahrávky s využitím hlubokých neuronových sítí. Příznaky jsou zpracovány, porovnány napříč sezeními a graficky zobrazeny, čímž vzniká dokument plnící roli zpětné vazby o sezení pro terapeuta. Tato zpětná vazba může posloužit k profesnímu růstu a kvalitnější psychoterapii v budoucnu. Bylo dosaženo relativního zlepšení detekce řečové aktivity o 37,82 %. Byl zobecněn diarizační systém VBx ke konvergenci ke dvěma mluvčím s minimálním relativním zhoršením chybovosti o 0,66 %. Byl natrénován systém pro automatické rozpoznávání řeči, jehož chybovost je o 17,06 % relativně lepší než nejlepší dostupný hybridní model. Dále byly natrénovány systémy pro klasifikaci sentimentu, typu terapeutických intervencí a detekci překrývající se řeči.
Odhad obličeje z řečového signálu
Zubalík, Petr ; Mošner, Ladislav (oponent) ; Plchot, Oldřich (vedoucí práce)
Hlavním cílem této diplomové práce bylo navrhnout a implementovat systém, který bude schopný odhadnout obličej na základě řeči daného člověka. Tento problém je vyřešen pomocí systému složeného ze tří modelů konvolučních neuronových sítí. První z nich je založen na architektuře ResNet a slouží pro extrahování příznaků z hlasových nahrávek. Druhým modelem je plně konvoluční neuronová síť, která převádí tyto příznaky na styly, na základě kterých bude upravován výsledný obrázek obličeje. Získané styly jsou poté předávány na vstup generátoru StyleGAN pro vygenerování výsledného obličeje. Navržený systém je implementován v programovacím jazyce Python s využitím frameworku PyTorch. V poslední kapitole práce je rozebráno a vyhodnoceno několik důležitých experimentů prováděných v rámci ladění a testování vytvořeného systému.
Analýza audio hovoru mezi dvěma účastníky
Polok, Alexander ; Plchot, Oldřich (oponent) ; Matějka, Pavel (vedoucí práce)
Cílem této práce je analýza psychoterapeutických sezení. Z audionahrávek jsou extrahovány klasifikátory, které popisují proběhlou terapii. Ty jsou následně agregovány, porovnány s ostatními sezeními a graficky prezentovány v podobě zprávy shrnující daný rozhovor. Terapeutům je tímto způsobem k proběhlým sezením poskytnuta zpětná vazba, která může sloužit k profesnímu růstu a kvalitnější psychoterapii v budoucnu.
Separace mluvčích v časové doméně pomocí neuronové sítě
Peška, Jiří ; Černocký, Jan (oponent) ; Žmolíková, Kateřina (vedoucí práce)
Práce se zabývá využitím konvolučních neuronových sítí pro automatickou separaci mluvčích v akustickém prostředí. Cílem je implementovat neuronovou síť podle architektury TasNet za použití frameworku PyTorch, natrénovat síť s různými hodnotami hyperparametrů a porovnat kvalitu separací vzhledem k velikosti síťě.   Architektura oproti dosavadním metodám, které převáděly vstupní směs do časově-frekvenční reprezentace, používá konvoluční autoenkodér, který vstupní směs převádí do nezáporné reprezentace, která je optimalizovaná pro extrakci jednotlivých mluvčích. Samotné separace je docíleno aplikací masek, které jsou odhadnuty v separačním modulu. Modul tvoří opakující se posloupnost konvolučních bloků se zvyšující se dilatací, která napomáhá k modelování časových závislostí ve zpracovávané směsi.   K vyhodnocení přesnosti byly použity metriky signal to distortion ratio (SDR), dále perceptual evaluation of speech quality (PESQ) a short-time objective intelligibility (STOI). Trénování a vyhodnocování proběhlo za použití Wall Street Journal datasetu (WSJ0). Natrénováním několika modelů s různými hodnotami hyperparametrů bylo možno pozorovat závislost mezi velikostí sítě a hodnotou SDR. Zatímco menší síť dosahovala, po 60 epochách trénování, přesnosti 10.8 dB, větší síť dosahovala až 12.71 dB.
Clustering a load balancing serveru pro zpracování řeči
Trnka, Miroslav
Tato práce se zabývá možnostmi load balancingu a clusteringu existujícího serveru pro zpracování řeči. V práci je rozebrána problematika load balancingu a clusteringu. Dále jsou zde popsány koncepty síťového programování a možnosti zpracování I/O. Rovněž je zde vytvořen návrh nově vzniklého load balanceru přizpůsobeného na míru potřebám serveru pro zpracování řeči. Tento nově navržený load balancer je implementován a podrobně testován.
Non-Parallel Voice Conversion
Brukner, Jan ; Plchot, Oldřich (oponent) ; Černocký, Jan (vedoucí práce)
Voice conversion (VC) aims at converting the voice of source speaker to the voice of target speaker. It is popular in funny Internet videos but has also series of serious use cases, such as dubbing of audiovisual material and anonymization of voice (for example for witness protection). As it can serve for spoofing of voice identification systems, it is also an important tool for development spoofing detectors and counter-measures.     Training VC models has mainly been on parallel audios (ie. two speakers uttering the same text) and on high quality audio material. The goal of this thesis was to investigate developing VC on non-parallel data and with low quality signals, mainly from publicly available dataset VoxCeleb.  This work follows the state-of-the-art AutoVC architecture defined by Qian et al. It is based on neural network (NN) autoencoders, aiming to separate speech into content- and speaker-dependent embedding. The target speech is then obtained by replacing source speaker embedding by the target speaker one. We have improved Qian's architecture to process low-quality audio by experimenting with different speaker embeddings (d-vectors vs. x-vectors), introducing a speaker classifier from content embeddings in an adversarial setup, and tuning the size of content embeddings imposing an information bottleneck to the autoencoder. Also, we have defined another adversarial architecture by comparing original content embeddings with those obtained after the VC process. The results of experiments prove that non-parallel VC on low-quality data is indeed doable. The resulting audios were not so good as in case of using high-quality ones, but the speaker verification results after spoofing by proposed system have clearly shown a shift of voice characteristics toward the target speakers.
Konverze hlasu
Brukner, Jan ; Plchot, Oldřich (oponent) ; Černocký, Jan (vedoucí práce)
Práce se věnuje konverzi hlasu. Tedy metodě, ve které se snažíme modifikovat řečové parametry zdrojového mluvčího na cílového. V práci je nejdříve popsána Voice Conversion Challenge (VCC), ve které se účastníci snažili vytvořit co nejlepší systém pro konverzi hlasu. V další části jsou analyzovány komponenty baseline systému použitého ve VCC. Poté jsou navrženy úpravy, které mohou zlepšit kvalitu konvertovaného hlasu. Následně je stručně popsána implementace těchto úprav a vyhodnoceny výsledky změn. V závěru je část věnována dalším možnostem vylepšení konverze hlasu.

Národní úložiště šedé literatury : Nalezeno 28 záznamů.   předchozí11 - 20další  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.