Národní úložiště šedé literatury Nalezeno 239 záznamů.  1 - 10dalšíkonec  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Integrace hlasových technologií na mobilní platformy
Černičko, Sergij ; Černocký, Jan (oponent) ; Schwarz, Petr (vedoucí práce)
Cílem práce je seznámit se s metodami a technikami využívanými při zpracování řeči. Popsat současný stav výzkumu a vývoje řečových technologií. Navrhnout a implementovat serverový rozpoznávač řeči, který využívá BSAPI. Integrovat klienta, který bude využívat server pro rozpoznání řeči, do mobilních slovníků společnosti Lingea.
Multimediální podpora předmětu BSIS
Pasečný, Jan ; Šebesta, Vladimír (oponent) ; Sigmund, Milan (vedoucí práce)
Tato práce si dává za cíl vytvořit ucelenou podobu studijních materiálů, doplněných o názorné příklady, pro předmět Signály a soustavy. Úvodní část diplomové práce obsahuje charakteristiku vybraných skupin signálů: zvukové, sdělovací, obrazové a biologické. Další část je věnována signálům spojitým a AD&DA převodům a pro doplnění zadání nakonec také signálům diskrétním. Diplomová práce jako celek obsahuje základní teoretický popis probírané problematiky, který se snaží doplnit o zajímavé příklady, souvislosti, grafy a skripty napsané v programu Matlab pro názornou prezentaci probírané látky.
Moderní řečové příznaky používané při diagnóze chorob
Bílý, Ondřej ; Smékal, Zdeněk (oponent) ; Mekyska, Jiří (vedoucí práce)
Tato práce se zabývá diagnózou Parkinsonovy choroby na základě analýzy řečového signálu. Na začátku práce je popsána tvorba řečového signálu. Následuje popis analýzy řečového signálu, jeho předzpracování a následná extrakce příznaků. Dále je popsána Parkinsonova choroba a změna řečového signálu při tomto postižení. V následující části jsou popsány příznaky, které se používají pro diagnózu Parkinsonovy choroby (FCR, VSA, VOT atd.). Další část práce se zabývá metodami redukce a výběru příznaků pomocí učících se algoritmů (SVM, ANN, k-NN) a jejich následné ohodnocení. V poslední části diplomové práce je popsán vytvořený program pro počítání příznaků. Dále je popsán výběr příznaků a na konec jsou zhodnoceny všechny dosažené výsledky.
Moderní kódování řečového signálu pomocí přeparametrizovaných modelů
Zapletal, Ondřej ; Průša, Zdeněk (oponent) ; Rajmic, Pavel (vedoucí práce)
Náplní teoretické části této práce je studie přeparametrizovaných modelů. To jsou takové modely signálů, ve kterých je pro jejich parametrizaci stanoveno více proměnných, než je potřeba a následně se hledá tzv. řídké řešení pomocí iteračních algoritmů. Cílem takovéto analýzy je výběr pouze těch důležitých (řídkých) parametrů. Teorie se opírá o lineární algebru, vektorové prostory, báze a tzv. framy. Úkolem samostatného projektu této práce je popis a simulace dvou řečových kodérů: klasického kodéru na bázi lineárního predikčního kódování řeči a kodéru využívajícího přeparametrizované modely pro náhodné ARMA procesy. Součástí jejich realizace je i vytvoření dekodérů a zhodnocení kvality rekonstrukce obou z nich. Pro realizaci je využito prostředí MATLAB a knihovna funkcí pro přeparametrizované modely (toolbox frames).
Segmentace řeči
Andrla, Petr ; Míča, Ivan (oponent) ; Sysel, Petr (vedoucí práce)
V rámci diplomové práce byl vytvořen program pro segmentaci nahrávek řeči na fonémy. Tento program byl vytvořen v prostředí Matlab a skládá se z několika skriptů. Program umožňuje automatickou segmentaci. Segmentace řeči je proces nalezení hranic mezi fonémy v mluvené řeči. Automatická segmentace je založena na metodě vektorové kvantizace. V prvním kroku výpočtu je provedena extrakce příznaků. Dále jsou části řeči přiděleny k určeným centroidům. Místo změny centroidu je označeno jako hranice fonémů. Tímto programem byla zpracována skupina nahrávek a vyhodnocena účinnost automatické segmentace. K programu byl vytvořen podrobný návod k obsluze. Dále jsou v práci stručně rozebrány jednotlivé použité metody zpracování řeči s uvedením jejich implementace v programu a odůvodnění nastavení jejich proměnných parametrů.
Srovnání úspěšnosti Siri, Cortany a Google
Procingerová, Lucie ; Černocký, Jan (oponent) ; Szőke, Igor (vedoucí práce)
Cílem této práce je porovnat úspěšnost překladu mluveného slova do textu s využitím několika služeb. Primárně se jedná o aplikace od společností Apple Inc., Microsoft Corporation a Google Inc., avšak je zde zahrnuto také několik dalších aplikací, dostupných převážně on-line. Tento dokument obsahuje popis zadaného problému, rozbor postupu provádění přepisu u jednotlivých služeb. Následně jsou rozebrány výsledky testu a porovnány s referenčními výstupy. Na závěr je uvedena diskuze těchto pokusů.
End-to-End Speech Recognition for Low-Resource Languages
Sokolovskii, Vladislav ; Schwarz, Petr (oponent) ; Karafiát, Martin (vedoucí práce)
The automatic speech recognition area has started to adopt end-to-end neural network solutions for creating speech recognizers. However, the data hunger nature of these types of systems allows for the creation of recognizers only for high-resource languages, such as English, Chinese or Spanish. In low-resource scenarios, some solutions which alleviate the data scarcity problem have to be developed. One of the most effective techniques for this is fine-tuning a pre-trained model. The problem with the existing approaches of fine-tuning is that the token set of target and source languages does usually differ. That is why previous multi-lingual transfer learning approaches required the output layer to be changed, or mixed tokens from different languages in the output layer, or use universal token sets, or have separate output layers per language. This is undesirable because the sharing across languages in this case latent and not controllable in the output space when the language-specific graphemes are disjoint. Therefore this work proposes to map the tokens to the common set before the beginning of the pre-training. The existing solution was a transliteration of the source language to the target one, the novel approach is romanization where the token set of the target language is romanized to match the English alphabet. Subsequently, the diacritics from the romanized hypotheses can be restored using an additional restoration model. This has the advantage of increasing sharing in the output grapheme space.
Rychlý a přesný detektor klíčových slov
Lenčéš, Marián ; Karafiát, Martin (oponent) ; Schwarz, Petr (vedoucí práce)
Tato práce se zabývá rychlou a přesnou detekcí klíčových slov z audio nahrávek. Cílem práce bylo prostudovat možnosti detekce slov a vytvořit několik typů jazykových modelů. Tyto modely následně mezi sebou porovnat. Zaměřujeme se zde na detekci klíčových slov z anglicky namluvených audio nahrávek.
Výpočtové modelování šíření lidského hlasu vokálním traktem a v prostoru okolo těla
Batelka, Jiří ; Hájek, Petr (oponent) ; Švancara, Pavel (vedoucí práce)
Tato diplomová práce se v první části zabývá popisem teorie zdroj-filtr tvorby lidského hlasu, anatomie hrtanu, možných přístupů k modelování tvorby lidského hlasu a vybraných prací využívající tyto přístupy. Následuje stručný popis vybraných veličin používaných v akustice a tvorba modelů. Byly vytvořeny modely samostatné hlavy a hlavy s torzem těla muže a ženy, včetně provedení testu sítě k určení vhodné velikosti prvku. Modely vytvořené v této práci se zaměřují na popis šíření zvuku především v prostoru před tělem a vliv torza na šíření zvuku. Přítomnost torza se projevuje výkyvy v frekvenčních závislostech v oblasti od 1 000 Hz do 8 000 Hz, více výraznými při nižších frekvencích. V transverzální rovině se přítomnost torza projevuje nižší SPL ve směru před ústy a vyšší SPL po stranách pro některé frekvence. Oblasti s poklesem SPL před ústy se shodují s frekvencemi s vyšší SPL po stranách v porovnání se směrem před ústy. Tato pozorování se shodují s výsledky ostatních prací. V transverzální rovině nejsou výrazné rozdíly mezi modely s různými torzy. Pod vodorovnou rovinou narůstá vliv odrazů od těla a lze pozorovat rozdíly mezi modely s torzem, např. u modelu s mužským torzem není patrný pokles SPL před ústy ve směrovém diagramu při některých frekvencích.
Lineární predikční a kepstrální syntéza řečového signálu v systému TTS
Mekyska, Jiří ; Stejskal, Vojtěch (oponent) ; Smékal, Zdeněk (vedoucí práce)
Práce se zabývá lineární predikční a kepstrální syntézou řečového signálu v systémech TTS (Text-to-Speech) s možností modelování prozodie. Je zde uveden popis řečového signálu v akustické a fonetické rovině, princip tvorby řeči a způsob znázornění řečového signálu v časové a kmitočtové oblasti. Dále je zde uvedena bloková stavba TTS systémů, přičemž každý blok je zvlášť detailně popsán. V práci je také popsána problematika modelování prozodie pomocí tří nejdůležitějších suprasegmentálních rysů (základní tón, trvání a intenzita řeči). Na konci je proveden návrh a realizace univerzálního českého TTS systému, který je založen na syntéze řeči v kmitočtové oblasti. Tento systém je implementován v programu MATLAB.

Národní úložiště šedé literatury : Nalezeno 239 záznamů.   1 - 10dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.