Národní úložiště šedé literatury Nalezeno 29 záznamů.  předchozí11 - 20další  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Data-driven Pronunciation Generation for ASR
Obedkova, Maria ; Plátek, Ondřej (vedoucí práce) ; Peterek, Nino (oponent)
Data-Driven Pronunciation Generation for ASR Maria Obedkova In ASR systems, dictionaries are usually used to describe pronunciations of words in a language. These dictionaries are typically hand-crafted by linguists. One of the most significant drawbacks of dictionaries created this way is that linguistically motivated pronunciations are not necessarily the optimal ones for ASR. The goal of this research was to explore approaches of data-driven pro- nunciation generation for ASR. We investigated several approaches of lexicon generation and implemented the completely new data-driven solution based on the pronunciation clustering. We proposed an approach for feature extraction and researched different unsupervised methods for pronunciation clustering. We evaluated the proposed approach and compared it with the current hand-crafted dictionary. The proposed data-driven approach could beat the established base- lines but underperformed in comparison to the hand-crafted dictionary which could be due to unsatisfactory features extracted from data or insufficient fine tuning. 1
Využití uživatelské odezvy pro zvýšení kvality řečové syntézy
Hudeček, Vojtěch ; Žabokrtský, Zdeněk (vedoucí práce) ; Peterek, Nino (oponent)
Dialogové systémy využívající mluvené řeči jsou v poslední době stále více zlepšovány, nicméně stále nezvládají rozhovory o neznámých tématech. Jedním z problémů je fakt, že modul pro řečovou syntézu může mít problém některá slova správně vyslovit. V práci prozkoumáme metody, které dokážou špatnou výslovnost detekovat a posléze vylepšit. Toto je zásadní krok pro zlepšení uživatelské přívětivosti, protože například špatná výslovnost vlastních jmen je velmi nežádoucí. Chybná výslovnost je způsobená nesprávnou fonetickou reprezentací slova. Naším cílem je detekovat tato slova, využít známou informaci o výslovnosti a za pomoci uživatelské odezvy opravit fonetickou transkripci. Takto získaná transkripce navíc může být přidána do slovníku rozpoznávače mluvené řeči. Naše metody tedy mohou zlepšit jak rozpoznávání, tak generování mluvené řeči.
Kontrola výslovnosti v logopedické aplikaci
Černý, Patrik ; Peterek, Nino (vedoucí práce) ; Vidová Hladká, Barbora (oponent)
Název práce: Kontrola výslovnosti v logopedické aplikaci Autor: Bc. Patrik Černý Ústav: Ústav formální a aplikované lingvistiky Vedoucí diplomové práce: Mgr. Nino Peterek, Ph.D., Ústav formální a aplikované lingvistiky Abstrakt: Cílem této práce je navrhnout, realizovat a otestovat způsob validace výslovnosti na základě současných algoritmů pro rozpoznávání mluvené řeči. Vý- sledný software je logopedická aplikace umožňující trénování hlásek resp. slov se zpětnou vazbou, zdali bylo dané slovo vysloveno správně. Validace výslovnosti je postavena na nástrojích CMUSphinx a generování špatných výslovností (v podobě fonetických slovníků). Pro potřeby trénování a testování jsou nasbírány nahrávky správné a špatné výslovnosti. Ukázalo se že navržený přístup není vhodný. Vý- sledná aplikace se dá díky jejímu návrhu jednoduše rozšířit o techniky, které by mohly zvýšit efektivnost validace výslovnosti. Klíčová slova: validace výslovnosti, rozpoznávání slov, dyslálie, logopedická apli- kace
Učící se analyzátor audio-vizuálních záznamů
Košarko, Ondřej ; Peterek, Nino (vedoucí práce) ; Klusáček, David (oponent)
V této práci je představen analyzátor audiovizuálních záznamů, který ze zvukové složky záznamu a dodaných titulků vytvoří textovou anotaci. Anotace obsahuje textový přepis pořadu založený na titulcích a je v ní vyznačeno, který z mluvčích danou repliku pronesl. Zjištění počtu mluvčích a jejich přidělení úsekům záznamu zajišťuje externí knihovna, stejně jako detekci úseků s muzikou. V práci je popsáno fungování této knihovny a je vyhodnocena na dostupných datech z korpusu DIALOG. Pro přiřazení textu ke správnému úseku záznamu používáme Kaldi, toolkit pro automatické rozpoznávání řeči. Práce dále obsahuje přehled o tvorbě skrytých titulků, o tvorbě korpusů mluvené řeči a stručný přehled literatury věnující se analýze záznamů. 1
Neural networks for automatic speaker, language, and sex identification
Do, Ngoc ; Jurčíček, Filip (vedoucí práce) ; Peterek, Nino (oponent)
Název: Neuronové sítě pro automatické rozpoznávání řečníka, jazyka a pohlaví Autorka: Bich-Ngoc Do Katedra: Ústav formální a aplikované lingvistiky Vedoucí práce: Ing. Mgr. Filip Jurek, Ph.D., Ústav formální a aplikované lingvistiky, a Dr. Marco Wiering, Institut umělé inteligence a kognitivních věd, Fakulta matematiky a přírodních věd, Univerzita v Groningenu Abstrakt: Rozpoznávání řečníka je náročný úkol a má využití v mnoha oblastech, například využítí pro autorizaci nebo forenzní vědě. V posledních letech se rozšířil koncept učení hlubokých, především hluboké neuronové sítě, které se ukázaly jako schopná technika strojového učení a dosáhly výborných úspěchů v mnoha oblastech výzkumu zpracování přirozeného jazyka a zpra- cování mluveného slova. Tato práce si dává za cíl prozkoumat možnosti modelu hlubokých neuronových sítí, rekurentních neuronových sítí v úloze rozpoznávání řečníka. Námi navržené systémy byly vyhodnoceny na kor- pusu TIMIT pro úlohu identifikace řečníka. V porovnání s jinými systémy za stejných testových podmínkách náš systém nedosáhl referenčních výsledků kvůli nedostatku validačních dat. Naše experimenty ukázaly, že nejlepší konfigurace systému je...
Development of trainable policies for spoken dialogue systems
Le, Thanh Cong ; Jurčíček, Filip (vedoucí práce) ; Peterek, Nino (oponent)
Abstraktní Vývoj trénovatelných strategií řízení pro dialogové systémy Thanh Le Řeč je nejpřirozenějším a nejefektivnějším způsobem mezilidské komunikace. Hlasové dialogové systémy (Spoken Dialogue Systems, SDS) se pokouší uvést tento způsob interakce do počítačových systému, aby pro komunikaci se stroji nebylo nutné naučit se používat speciální vstupní zařízení jako je klávesnice a myš. Nepřesnosti v automatickém rozpoznávání řeči však způsobují inherentní nejednoznačnost mluveného vstupu, takže stav dialogu (přání uživatele) nelze znát s absolutní jistotou a konstrukce SDS není triviální. Pro práci s nejistotou v dialogu byly navrženy statistické přístupy, které udržují pravděpodobnostní rozdělení přes všechny možné stavy dialogu. Na základě tohoto rozdělení se systém učí, jak komunikovat s uživateli a splnit jejich cíle co nejefektivnějším způsobem. V kontextu techniky zpětnovazebního učení (Reinforcement Learning, RL) se proces učení chápe jako optimalizace strategie volby akce podmíněné aktuálním stavem. Protože prostor možných stavů dialogu je velký i ve velmi omezených SDS, ...
Rozpoznávání řeči pomocí KALDI
Plátek, Ondřej ; Jurčíček, Filip (vedoucí práce) ; Peterek, Nino (oponent)
Tématem této práce je implementace výkonného rozpoznávače v open-source systému trénování ASR Kaldi (http://kaldi.sourceforge.net/) pro dialogové systémy. Kaldi již obsahuje ASR dekodéry, které však nejsou vhodné pro dialogové systémy. Hlavními důvody jsou jejich malá optimalizace na rychlost a jejich velké zpoždění v generování výsledku po ukončení promluvy. Cílem této práce je proto vyvinutí real-time rozpoznávače pro dialogové systémy optimalizovaného na rychlost a minimalizujícího zpoždění. Zrychlení může být realizováno například pomocí multi-vláknového dekódování nebo s využitím grafických karet pro obecné výpočty. Součástí práce je také příprava akustického modelu a testování ve vyvíjeném dialogovém systému "Vystadial". Powered by TCPDF (www.tcpdf.org)
Development of an English public transport information dialogue system
Vejman, Martin ; Jurčíček, Filip (vedoucí práce) ; Peterek, Nino (oponent)
Tato práce se zabývá vývojem anglického dialogového systému, který je založen na frameworku Alex určeném pro vytváření dialogových systémů. Práce popisuje adaptaci komponent frameworku na novou doménu a anglický jazyk. Výsledný dialogový systém poskytuje informace o veřejné dopravě ve městě New York. Součástí práce je příprava statistického modelu a nasazení vlastního rozpoznávače řeči pomocí nástrojů Kaldi. Bylo s ním ve srovnání s Google Speech API dosaženo lepších výsledků, které vychází ze subjektivního hodnocení uživatelů získaného pomocí crowdsourcingu. Powered by TCPDF (www.tcpdf.org)
Výslovnostní rysy češtiny - dialektová analýza
Michlíková, Vendula ; Peterek, Nino (vedoucí práce) ; Korvas, Matěj (oponent)
Implementovali jsme nástroj Výrče:SW pro neasistovaný sběr zvukových nahrávek s nastavitelnými nahrávacími scénáři, které umožňují také analýzu vytvořených dat a zobrazování výsledků. S pomocí vytvořeného nástroje jsme sesbírali Výrče:Korpus, převážně čtený korpus o 2376 nahrávkách od 34 mluvčích v celkové délce 7 hodin. Součástí korpusu jsou také vyplněné dotazníky mluvčích pro přesné určení dialektologické příslušnosti a spolehlivosti. Dostatek mluvčích pro nářeční analýzu pochází ze středočeské oblasti nářečí a ze slezské oblasti nářečí. Na těchto dvou nejpočetnějších skupinách v korpusu jsme natrénovali jednoduchý monofonémový rozpoznávač nářeční oblastí založený na skrytých Markovovských modelech. Powered by TCPDF (www.tcpdf.org)
Statistical Natural Language Processing Methods in Music Notation Analysis
Libovický, Jindřich ; Peterek, Nino (vedoucí práce) ; Mareček, David (oponent)
Práce shrnuje dosavadní výzkum v oblasti aplikace statistických metod počítačové lingvis- tiky při zpracování hudby a vysvětluje teoretické pozadí těchto aplikací. V druhé části práce jsou shrnuty možnosti symbolické extrakce melodie. Byl vytvořen korpus přibližně 400 hodin melodií různých hudebních stylů, který je využit pro trénování statistického modelu melodie založeného na metodách jazykového modelování. V třetí části práce je tento model využit k pokusu vytvořit alternativní metodu extrakce melodie ze zvukového záznamu, která místo běžně používaných heuristik a pravidel využívá model melodie. Systém funguje dobře pouze na jednoduchých vstupních datech, ale na standardních datech ze soutěže MIREX nedosa- huje úspěšnosti v současnosti existujících systému. Provedené experimenty s rozpoznáváním melodie pomohly lépe definovat rozdíl mezi tím, jak vypadá průběh frekvence vnímané jako melodie - fyzikální melodie, a jak je melodie vnímána na abstraktní úrovni při symbolickém zápisu - abstraktní melodie. 1

Národní úložiště šedé literatury : Nalezeno 29 záznamů.   předchozí11 - 20další  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.