Národní úložiště šedé literatury Nalezeno 11 záznamů.  1 - 10další  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Speech Recognition of Czech Using Finite-State Machines
Podveský, Petr ; Hajič, Jan (vedoucí práce) ; Psutka, Josef (oponent) ; Krbec, Pavel (oponent)
Speech recognition has become a thriving field with many real-life applications. Voice dialing in cell phones, voice control in embedded devices, speech-driven interactive manuals and many other utilities rely on solid speech recognition software. We believe that research in speech recognition can boost performance of many applications related to the area. The thesis concentrates on automatic large-vocabulary continuous-speech recognition of Czech. Czech differs from English in a few aspects. We focus on these differences and propose new language-depended techniques. Namely rich morphology is investigated and its impact on speech recognition is studied. Out-of-vocabulary (OOV) words are identified as one of the major sources deteriorating recognition performace. New language modeling techniques are proposed to alleviate the problem of OOV words. The proposed language models are tested in speech recognition systems on diverse speech corpora. The obtained results validate the original approach to language modeling. Significant overall speech recognition improvement is observed.
Webcrawler
Lessner, Daniel ; Pecina, Pavel (vedoucí práce) ; Podveský, Petr (oponent)
Práce se zabývá tvorbou webového robota. Jeho úkolem je rekurzivně stahovat z internetu české stránky a čistit je na samotný prostý text (žádné HTML značky, styly nebo skripty). Ten potom bude využit pro tvorbu obrovského jazykového korpusu, užitečného pro další výzkum. Klíčovou vlastností robota je nenápadnost běhu, nezatěžování cizích prostředků a plné respektování nezávazného doporučení Robots Exclusion Standard. Robot je napsán v jazyce Python a intenzivně využívá jeho standardní knihovny a rychlou práci s textovými řetězci. Vzhledem k charakteru úlohy jsme se rozhodli pro paralelní implementaci, která by měla plně využít šířku pásma. S tímto záměrem jsme měli úspěch. Výsledkem práce je tedy robot připravený získat dostatek textů pro korpus. Samozřejmě je ale použitelný i pro jiné účely, zvlášť tam, kde je potřeba šetrnost k cizím prostředkům. Kromě jeho přínosu pro lingvistiku poskytuje i zajímavé informace o obsahu českého internetu.
Modulární fulltextový vyhledávač pro MySQL
Baroš, Martin ; Semecký, Jiří (vedoucí práce) ; Podveský, Petr (oponent)
Cílem bakalárského projektu je za pomoci databázového serveru MySQL vystavet fulltextový vyhledávac, který je schopen pracovat se specifickými vlastnostmi ceštiny. Není snahou naprogramovat moduly pro zpracování dokumentu na vysoké úrovni, které budou rešit lingvistické otázky, ale vytvorit dobre definované rozhraní, v rámci kterého lze zasouvat další (jiné) moduly, jejichž rozhraní odpovídá definici. Cílovou platformou je Unix, programovacím jazykem C++.
Morfologická disambiguace češtiny pomocí Markovkých modelů
Dufková, Kateřina ; Podveský, Petr (vedoucí práce) ; Vidová Hladká, Barbora (oponent)
Ve své bakalářské práci jsem se rozhodla věnovat morfologické disambiguaci textu. Tato úloha má své opodstatnění především v oblasti překladu přirozených jazyků, kde slouží k předzpracování textu určeného k přeložení tak, aby z něj byly odstraněny nejednoznačnosti ve slovních druzích a dalších morfologických kategoriích, které by v dalších fázích překladu působily problémy anebo neúnosně zvyšovaly jeho časovou náročnost. Zvolila jsem statistický přístup k tomuto problému, který je v porovnání s dalšími možnými metodami rychlejší, univerzálnější a je schopen vždy jednoznačně určit kategorii slova. Svoji aplikaci KDTagger, kterou jsem vytvořila v rámci této bakalářské práce, jsem založila na teorii skrytých Markovských modelů. Mým cílem bylo vytvořit takový program, který by byl univerzální co do operačního systému i způsobu ovládání a umožňoval zároveň nastavení všech důležitých lingvistických parametrů pro odborníky i komfortní použití pro laiky. Součástí mé práce byla rozsáhlá testování vytvořené aplikace, které jsem prováděla na českých novinových textech z Pražského závislostního korpusu verze 2.0. Aplikace je ovšem bez sebemenší změny použitelná i na libovolný jiný přirozený jazyk. Powered by TCPDF (www.tcpdf.org)
Speech Recognition of Czech Using Finite-State Machines
Podveský, Petr
Speech recognition has become a thriving field with many real-life applications. Voice dialing in cell phones, voice control in embedded devices, speech-driven interactive manuals and many other utilities rely on solid speech recognition software. We believe that research in speech recognition can boost performance of many applications related to the area. The thesis concentrates on automatic large-vocabulary continuous-speech recognition of Czech. Czech differs from English in a few aspects. We focus on these differences and propose new language-depended techniques. Namely rich morphology is investigated and its impact on speech recognition is studied. Out-of-vocabulary (OOV) words are identified as one of the major sources deteriorating recognition performace. New language modeling techniques are proposed to alleviate the problem of OOV words. The proposed language models are tested in speech recognition systems on diverse speech corpora. The obtained results validate the original approach to language modeling. Significant overall speech recognition improvement is observed.
Modulární fulltextový vyhledávač pro MySQL
Baroš, Martin ; Podveský, Petr (oponent) ; Semecký, Jiří (vedoucí práce)
Cílem bakalárského projektu je za pomoci databázového serveru MySQL vystavet fulltextový vyhledávac, který je schopen pracovat se specifickými vlastnostmi ceštiny. Není snahou naprogramovat moduly pro zpracování dokumentu na vysoké úrovni, které budou rešit lingvistické otázky, ale vytvorit dobre definované rozhraní, v rámci kterého lze zasouvat další (jiné) moduly, jejichž rozhraní odpovídá definici. Cílovou platformou je Unix, programovacím jazykem C++.
Speech Recognition of Czech Using Finite-State Machines
Podveský, Petr ; Hajič, Jan (vedoucí práce) ; Psutka, Josef (oponent) ; Krbec, Pavel (oponent)
Speech recognition has become a thriving field with many real-life applications. Voice dialing in cell phones, voice control in embedded devices, speech-driven interactive manuals and many other utilities rely on solid speech recognition software. We believe that research in speech recognition can boost performance of many applications related to the area. The thesis concentrates on automatic large-vocabulary continuous-speech recognition of Czech. Czech differs from English in a few aspects. We focus on these differences and propose new language-depended techniques. Namely rich morphology is investigated and its impact on speech recognition is studied. Out-of-vocabulary (OOV) words are identified as one of the major sources deteriorating recognition performace. New language modeling techniques are proposed to alleviate the problem of OOV words. The proposed language models are tested in speech recognition systems on diverse speech corpora. The obtained results validate the original approach to language modeling. Significant overall speech recognition improvement is observed.
Webcrawler
Lessner, Daniel ; Podveský, Petr (oponent) ; Pecina, Pavel (vedoucí práce)
Práce se zabývá tvorbou webového robota. Jeho úkolem je rekurzivně stahovat z internetu české stránky a čistit je na samotný prostý text (žádné HTML značky, styly nebo skripty). Ten potom bude využit pro tvorbu obrovského jazykového korpusu, užitečného pro další výzkum. Klíčovou vlastností robota je nenápadnost běhu, nezatěžování cizích prostředků a plné respektování nezávazného doporučení Robots Exclusion Standard. Robot je napsán v jazyce Python a intenzivně využívá jeho standardní knihovny a rychlou práci s textovými řetězci. Vzhledem k charakteru úlohy jsme se rozhodli pro paralelní implementaci, která by měla plně využít šířku pásma. S tímto záměrem jsme měli úspěch. Výsledkem práce je tedy robot připravený získat dostatek textů pro korpus. Samozřejmě je ale použitelný i pro jiné účely, zvlášť tam, kde je potřeba šetrnost k cizím prostředkům. Kromě jeho přínosu pro lingvistiku poskytuje i zajímavé informace o obsahu českého internetu.
Morfologická disambiguace češtiny pomocí Markovkých modelů
Dufková, Kateřina ; Podveský, Petr (vedoucí práce) ; Vidová Hladká, Barbora (oponent)
Ve své bakalářské práci jsem se rozhodla věnovat morfologické disambiguaci textu. Tato úloha má své opodstatnění především v oblasti překladu přirozených jazyků, kde slouží k předzpracování textu určeného k přeložení tak, aby z něj byly odstraněny nejednoznačnosti ve slovních druzích a dalších morfologických kategoriích, které by v dalších fázích překladu působily problémy anebo neúnosně zvyšovaly jeho časovou náročnost. Zvolila jsem statistický přístup k tomuto problému, který je v porovnání s dalšími možnými metodami rychlejší, univerzálnější a je schopen vždy jednoznačně určit kategorii slova. Svoji aplikaci KDTagger, kterou jsem vytvořila v rámci této bakalářské práce, jsem založila na teorii skrytých Markovských modelů. Mým cílem bylo vytvořit takový program, který by byl univerzální co do operačního systému i způsobu ovládání a umožňoval zároveň nastavení všech důležitých lingvistických parametrů pro odborníky i komfortní použití pro laiky. Součástí mé práce byla rozsáhlá testování vytvořené aplikace, které jsem prováděla na českých novinových textech z Pražského závislostního korpusu verze 2.0. Aplikace je ovšem bez sebemenší změny použitelná i na libovolný jiný přirozený jazyk. Powered by TCPDF (www.tcpdf.org)
Speech Recognition of Czech Using Finite-State Machines
Podveský, Petr
Speech recognition has become a thriving field with many real-life applications. Voice dialing in cell phones, voice control in embedded devices, speech-driven interactive manuals and many other utilities rely on solid speech recognition software. We believe that research in speech recognition can boost performance of many applications related to the area. The thesis concentrates on automatic large-vocabulary continuous-speech recognition of Czech. Czech differs from English in a few aspects. We focus on these differences and propose new language-depended techniques. Namely rich morphology is investigated and its impact on speech recognition is studied. Out-of-vocabulary (OOV) words are identified as one of the major sources deteriorating recognition performace. New language modeling techniques are proposed to alleviate the problem of OOV words. The proposed language models are tested in speech recognition systems on diverse speech corpora. The obtained results validate the original approach to language modeling. Significant overall speech recognition improvement is observed.

Národní úložiště šedé literatury : Nalezeno 11 záznamů.   1 - 10další  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.