Národní úložiště šedé literatury Nalezeno 19 záznamů.  předchozí11 - 19  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Popis staročeské apelativní deklinace (se zřetelem k automatické morfologické analýze textů ve Staročeské textové bance)
Synková, Pavlína ; Oliva, Karel (vedoucí práce) ; Petkevič, Vladimír (oponent) ; Vepřek, Miroslav (oponent)
Práce přináší explicitní popis staročeské apelativní deklinace, který může sloužit jako základ pro automatické vygenerování tvarů spojených s morfologickými charakteristikami a lemmatem. Tyto tvary mohou být poté využity pro přiřazování morfologických kategorií (rodu, čísla a pádu) a lemmatu k tvarům vyskytujícím se v elektronizovaných staročeských textech. Práce tak vytváří podklady pro první krok k přeměně textových bank, které v současnosti pro staročeské období existují, v šíře využitelný nástroj lingvistického výzkumu. Staročeským obdobím se přitom ve shodě s obecně přijatou periodizací myslí období od vzniku souvislých českých textů zhruba do roku 1500. Substantiva byla vybrána proto, že v současné češtině pokrývají zhruba 30 % textu, tedy nejvíce ze všech slovních druhů. V celé práci se zohledňují staročeské texty pouze v transkripci užívané v textech Staročeské textové banky budované v Ústavu pro jazyk český AV ČR, v. v. i. Pro automatickou morfologickou analýzu představuje transkripce velké usnadnění, protože standardizuje písmo i pravopis, zároveň je však třeba mít na zřeteli, že každá transkripce je interpretací a je do jisté míry závislá na rozhodnutí editora textu. V práci se pro popis staročeské apelativní deklinace využívají historické mluvnice, staročeské texty a slovníky staré...
Automatická tvorba slovníků z překladových textů
Sumbalová, Lenka ; Kouřil, Jan (oponent) ; Smrž, Pavel (vedoucí práce)
Cílem této bakalářské práce bylo vytvořit systém pro automatickou tvorbu slovníků z překladových testů. Je popsána implementace systému, který generuje česko-anglický slovník ze zarovnaného paralelního korpusu a shrnut výsledek práce. Dále je analyzován paralelní korpus CzEng, který byl použit jako zdroj dat pro slovníky a vysvětleny teoretické pojmy související s touto problematikou.
Nalezení slovních kořenů v češtině
Hellebrand, David ; Bartík, Vladimír (oponent) ; Chmelař, Petr (vedoucí práce)
Cílem této diplomové práce je vytvořit pro český jazyk lemmatizační algoritmus založený na gramatických pravidlech. Práce obsahuje popis problematiky lemmatizace a několika různých lemmatizačních algoritmů. Dále jsou popsány základy gramatiky českého jazyka a také jazyka Snowball, ve kterém budou navržené postupy implementovány. Hlavní část tvoří popis implementace lemmatizačního algoritmu.
Czech-English Translation
Petrželka, Jiří ; Schmidt, Marek (oponent) ; Smrž, Pavel (vedoucí práce)
This Master's thesis describes the principles of statistical machine translation and demonstrates how to assemble the Moses statistical machine translation system. In the preparation step, a research on freely available bilingual Czech-English corpora is done. An empirical analysis of time requirements of multithreaded word alignment tools demonstrates that MGIZA++ can achieve a five-fold speed-up, while PGIZA++ can reach an eight-fold speed-up (compared to GIZA++).Three scenarios of morphological pre-processing of Czech training data are tested, using simple unfactored models. While pure lemmatization can aggravate the BLEU, more sophisticated approaches usually raise BLEU. The positive effect of morphological pre-processing diminishes as corpus size rises. The relation between other corpora characteristics (size, genre, extra data) and the resulting BLEU are empirically gauged. A final system is trained on the CzEng 0.9 corpus and evaluated on the testing set from WMT 2010 workshop.
Paralelní korpusový manažer
Kouřil, Jan ; Dytrych, Jaroslav (oponent) ; Smrž, Pavel (vedoucí práce)
Cílem diplomové práce bylo implementovat paralelní korpusový manažer, který umí zarovnat paralelní cizojazyčné texty a vložit je do korpusu, kde jsou poskytnuty další funkce pro jejich zpracování. Program poskytuje možnosti automatického zarovnání paralelních textů a jejich interaktivní úpravy. Tyto zarovnané texty se následně vkládají do korpusu. Program umí spravovat několik korpusů, paralelní korpus je identifikován vždy dvojicí jazyků. V korpusu je potom možno vyhledávat podle několika kategorií, zobrazovat a editovat jednotlivé výběry, lemmatizovat a morfologicky značkovat dané texty, provádět různá třídění výběrů, importovat a exportovat data, různými způsoby upravovat korpus pro další snadnou navigaci a přidávat další významy do spravovaných slovníků. Jednotlivé kapitoly popisují úvod ke korpusové problematice, teorii zarovnání paralelních textů, morfologické značkování textu a lemmatizaci, externí nástroje v programu použité, nejčastější formáty titulků a implementační řešení jednotlivých problémů.
Odvození slovníku pro nástroj Process Inspector na platformě SharePoint
Pavlín, Václav ; Masařík, Karel (oponent) ; Kreslíková, Jitka (vedoucí práce)
Tato diplomová představuje metody pro dolování důležitých informací z textu. Analyzuje problém extrakce pojmů z rozsáhlé sady dokumentů a popisuje implementaci řešení s využitím jazyka C# a databázového systému Microsoft SQL Server. Systém k extrakci pojmů využívá lemmatizaci výrazů a několik statistických metod. Práce také srovnává použité metody a navrhuje postup odvození slovníku.
Určení základního tvaru slova
Šanda, Pavel ; Burget, Radim (oponent) ; Karásek, Jan (vedoucí práce)
Lemmatizace je důležitou procedurou před dolováním v textu v mnoha aplikacích. Proces lemmatizace je podobný procesu stemmingu, s tím rozdílem, že neurčuje pouze kořen slova, ale snaží se slovo převést pomocí metod Brute Force a Suffix Stripping do jeho základního tvaru. Hlavním cílem této práce je prezentovat metody pro vylepšení algoritmů lemmatizace českého jazyka. Obsahem je vytvoření trénovací množiny dat, kterou lze libovolně použít pro studentské i vědecké práce zabývající se podobnou problematikou.
Rozpoznávání emocí v česky psaných textech
Červenec, Radek ; Smékal, Zdeněk (oponent) ; Burget, Radim (vedoucí práce)
Díky rozvoji informačních a komunikačních technologií v posledních letech došlo k velkému nárůstu množství informací, které denně vznikají ve formě elektronických dokumentů. Třídění a zpracování informací se stalo pro člověka velmi obtížné, a proto vzrůstá obliba systémů automatického dolování znalostí z textu. Zajímavou podoblastí jsou systémy pro analýzu sentimentu a automatického rozpoznání emocí v textech, které mají potencionálně široké uplatnění. V rámci této práce byl navržen a implementován systém využívající technik dolování znalostí z textu za účelem rozpoznávání emocí v česky psaných textech a bylo provedeno zhodnocení jeho úspěšnosti. Protože je systém postaven převážně na metodě strojového učení, byla navrhnuta a vytvořena trénovací množina, která byla posléze použita k vytvoření modelu klasifikátoru pomocí algoritmu podpůrných vektorů (SVM). Pro potřeby zpřesnění výsledků klasifikace textových dokumentů do předem definovaných emočních tříd, jsou do systému integrovány další prvky, jako např.: lexikální databáze, lemmatizátor a odvozený slovník klíčových slov. Součástí práce je také zhodnocení několika přístupů ke klasifikaci s různými modifikacemi navrženého systému.
Jak kvalita lemmatizace ovlivňuje výsledky vyhledávání dokumentů v českém jazyce
Pytelka, Petr ; Strossa, Petr (vedoucí práce) ; Pinkas, Otakar (oponent)
Cílem práce je měření kvality lemmatizace pro český jazyk v systémech zpracování doku-mentů a analýza výsledků tohoto měření. V teoretické části práce je popsán princip plno-textového vyhledávání, možnosti realizace lemmatizace a běžné problémy, které je nutné řešit při zpracování přirozeného jazyka. V práci jsou diskutovány možnosti hodnocení kva-lity lemmatizace pomocí měření přesnosti a úplnosti vyhledávání. Pro detailnější hodnocení lemmatizátoru je popsána metoda měření nadměrné a nedostatečné lemmatizace. V druhé části práce je navržen experiment a testovací aplikace pro měření kvality lemmati-zace ve třech systémech, které jsou používány pro realizaci vyhledávání dokumentů. Jedná se o knihovnu Apache Lucene, databázové systémy PostgreSQL a Microsoft SQL Server. Experiment je prováděn s využitím Pražského závislostního korpusu, a to pro korpus jako celek a zvlášť pro vybrané slovní druhy. Rozbor výsledků pro výchozí lemmatizátor pro český jazyk v Lucene umožnil návrh několika drobných úprav, které vedou k měřitelnému zlepšení vyhledávání. Výsledky práce ukazují, jak lze využít uvedené metriky a podrobné výsledky pro zlepšování lemmatizačních algoritmů a tím i pro zkvalitnění plnotextového vyhledávání pro český jazyk.

Národní úložiště šedé literatury : Nalezeno 19 záznamů.   předchozí11 - 19  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.