Národní úložiště šedé literatury Nalezeno 28 záznamů.  1 - 10dalšíkonec  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Mobile platform for testing of automotive systems in Bluetooth Hands-Free communication
Mecerod, Václav ; Stifter, Jiří (oponent) ; Kratochvíl, Tomáš (vedoucí práce)
This master’s thesis deals with the main issues of the Hands-Free communication systems implementation in the automotive industry. The first chapter focuses on the theoretical aspects of speech processing in embedded applications, such as noise suppressing, acoustic echo cancelation and Hands-Free performance in general. The second chapter includes the design of compact flexible mobile testing tools for wireless communication Hands-Free modules.
Konverze hlasu
Hodaň, David ; Novotný, Ondřej (oponent) ; Černocký, Jan (vedoucí práce)
Práce se zabývá problematikou konverze hlasu, což je transformace parametrů řeči jednoho řečníka tak, aby zněl jako někdo jiný. Je proveden rozbor metod odrážejících současný stav technik konverze. V teoretické části je nejprve přiblížen způsob tvorby řeči s důrazem na atributy identifikující a charakterizující hlas. Jsou popsány metody modifikace hlasu s jejich výhodami a úskalími, jež předurčují oblast použití daných metod. Dále jsou probrány způsoby transformace hlasu mezi zdrojovým a cílovým mluvčím. Na základě popsaných poznatků je vytvořen software demonstrující jednu z cest jak tohoto cíle dosáhnout. Konverze je rozdělena z pohledu trénování a syntézy. Součástí práce je program konverze hlasu, který byl vytvořen v programovém prostření MATLAB. Postupně je v práci popsán jeho návrh, implementace a zhodnocení dosažených výsledků.
Webový prohlížeč přednášek
Žižka, Josef ; Mikolov, Tomáš (oponent) ; Fapšo, Michal (vedoucí práce)
Tato práce se zabývá webovým prohlížečem přednášek, jehož cílem je usnadnit přístup k informacím s využitím moderních řečových a multimediálních technologií. Jsou rozebrány jednotlivé technologie, na kterých je prohlížeč postaven. Významnou roli v prohlížeči představují videozáznamy, a proto je velká část této práce zaměřena na digitální video a způsoby jeho doručení skrze streaming servery.  Jsou uvedena řešení podobně stavěných multimediálních prohlížečů. Čtenář je seznámen s návrhem prohlížeče. Toto zahrnuje popis jeho jednotlivých komponent a je vysvětlena jejich vzájemná synchronizace. Je představena výsledná verze prohlížeče přednášek, jsou zmíněny problémy, které se vyskytly v průběhu jeho vývoje a při nasazení prohlížeče do reálného provozu. Na konci práce je diskutován budoucí vývoj webového prohlížeče přednášek.
Vizualizace výstupu z řečových technologií pro potřeby kontaktních center
Zhezhela, Oleksandr ; Szőke, Igor (oponent) ; Schwarz, Petr (vedoucí práce)
Diplomová práce se zabývá vizualizací dat získaných pomocí řečových technologií pro potřeby kontaktních center. Jsou prozkoumány metody získávání informaci z řečových signálů a existující nástroje, které řeší podobné úlohy. Je analyzován rozsah dat, která lze z řečových technologií získat. Procesy a standardy používané v kontaktních centrech. Na základě požadavků pracovníků kontaktních center bylo implementováno uživatelské rozhraní pro vizualizaci dat a audio přehrávačznázorňující řečová data. Získané poznatky a řešení byly implementovány do nástroje Speech Analytics Server (SPAS).
Odhad obličeje z řečového signálu
Zubalík, Petr ; Mošner, Ladislav (oponent) ; Plchot, Oldřich (vedoucí práce)
Hlavním cílem této diplomové práce bylo navrhnout a implementovat systém, který bude schopný odhadnout obličej na základě řeči daného člověka. Tento problém je vyřešen pomocí systému složeného ze tří modelů konvolučních neuronových sítí. První z nich je založen na architektuře ResNet a slouží pro extrahování příznaků z hlasových nahrávek. Druhým modelem je plně konvoluční neuronová síť, která převádí tyto příznaky na styly, na základě kterých bude upravován výsledný obrázek obličeje. Získané styly jsou poté předávány na vstup generátoru StyleGAN pro vygenerování výsledného obličeje. Navržený systém je implementován v programovacím jazyce Python s využitím frameworku PyTorch. V poslední kapitole práce je rozebráno a vyhodnoceno několik důležitých experimentů prováděných v rámci ladění a testování vytvořeného systému.
Implementace detektoru klíčových slov do mobilního telefonu (Symbian 60)
Cipr, Tomáš ; Schwarz, Petr (oponent) ; Szőke, Igor (vedoucí práce)
Detektor klíčových slov je jednou z aplikací automatického rozpoznávání řeči. Úkolem detektoru je určit, ve kterých místech souvislého toku řeči se vyskytují slova ze zadaného seznamu. Detektor klíčových slov najde řadu uplatnění mimo jiné i v mobilních telefonech, např. pro jejich ovládání hlasem. S nástupem OS Symbian se otevřela možnost jak detektor implementovat i pro tato zařízení. Zpráva popisuje jednak teoretická a odborná východiska realizace detektoru a také jeho následnou implementaci. Nejdříve je uveden operační systém Symbian s ohledem na praktické řešení úkolu. Dále je popsán způsob detekce klíčových slov od vstupního řečového signálu až po výstup, zda a která slova byla nalezena. Následně je prezentován objektový návrh detektoru a podrobněji popsána jeho implementace. Závěrem jsou shrnuty dosažené výsledky a nastíněn další vývoj.
Konverze hlasu
Brukner, Jan ; Plchot, Oldřich (oponent) ; Černocký, Jan (vedoucí práce)
Práce se věnuje konverzi hlasu. Tedy metodě, ve které se snažíme modifikovat řečové parametry zdrojového mluvčího na cílového. V práci je nejdříve popsána Voice Conversion Challenge (VCC), ve které se účastníci snažili vytvořit co nejlepší systém pro konverzi hlasu. V další části jsou analyzovány komponenty baseline systému použitého ve VCC. Poté jsou navrženy úpravy, které mohou zlepšit kvalitu konvertovaného hlasu. Následně je stručně popsána implementace těchto úprav a vyhodnoceny výsledky změn. V závěru je část věnována dalším možnostem vylepšení konverze hlasu.
Non-Parallel Voice Conversion
Brukner, Jan ; Plchot, Oldřich (oponent) ; Černocký, Jan (vedoucí práce)
Voice conversion (VC) aims at converting the voice of source speaker to the voice of target speaker. It is popular in funny Internet videos but has also series of serious use cases, such as dubbing of audiovisual material and anonymization of voice (for example for witness protection). As it can serve for spoofing of voice identification systems, it is also an important tool for development spoofing detectors and counter-measures.     Training VC models has mainly been on parallel audios (ie. two speakers uttering the same text) and on high quality audio material. The goal of this thesis was to investigate developing VC on non-parallel data and with low quality signals, mainly from publicly available dataset VoxCeleb.  This work follows the state-of-the-art AutoVC architecture defined by Qian et al. It is based on neural network (NN) autoencoders, aiming to separate speech into content- and speaker-dependent embedding. The target speech is then obtained by replacing source speaker embedding by the target speaker one. We have improved Qian's architecture to process low-quality audio by experimenting with different speaker embeddings (d-vectors vs. x-vectors), introducing a speaker classifier from content embeddings in an adversarial setup, and tuning the size of content embeddings imposing an information bottleneck to the autoencoder. Also, we have defined another adversarial architecture by comparing original content embeddings with those obtained after the VC process. The results of experiments prove that non-parallel VC on low-quality data is indeed doable. The resulting audios were not so good as in case of using high-quality ones, but the speaker verification results after spoofing by proposed system have clearly shown a shift of voice characteristics toward the target speakers.
Analýza audio hovoru mezi dvěma účastníky
Polok, Alexander ; Plchot, Oldřich (oponent) ; Matějka, Pavel (vedoucí práce)
Cílem této práce je analýza psychoterapeutických sezení. Z audionahrávek jsou extrahovány klasifikátory, které popisují proběhlou terapii. Ty jsou následně agregovány, porovnány s ostatními sezeními a graficky prezentovány v podobě zprávy shrnující daný rozhovor. Terapeutům je tímto způsobem k proběhlým sezením poskytnuta zpětná vazba, která může sloužit k profesnímu růstu a kvalitnější psychoterapii v budoucnu.
Shluková analýza v oblasti číslicového zpracování patologické řeči
Čapek, Karel ; Mžourek, Zdeněk (oponent) ; Galáž, Zoltán (vedoucí práce)
Tato bakalářská práce se zabývá výpočtem parametrů kvantifikujících degradaci řečové produkce způsobenou přítomností určité řečové patologie a následným rozřazením uvažovaných patologií do skupin pomocí algoritmu k-means. Účelem bylo nalezení skupin patologií, které navzdory možnému rozdílnému původu v podobné míře postihují fonační a artikulační schopnosti řečníka a znehodnocují kvalitu řeči jako takové. V práci bylo využito fonaci hlásky „a“, jako nejběžněji se vyskytujícího řečového cvičení, kvůli své odolnosti vůči demografickým a lingvistickým charakteristikám jednotlivých řečníků. Dále je na parametry uplatněna předběžná analýza, která má za úkol vybrat parametry nejlépe charakterizující degradaci řečové promluvy. Nakonec jsou tyto vybrané parametry použity pro nalezení výsledných dělení patologií pomocí algoritmu k-means.

Národní úložiště šedé literatury : Nalezeno 28 záznamů.   1 - 10dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.