Národní úložiště šedé literatury Nalezeno 22 záznamů.  1 - 10dalšíkonec  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Určení základního tvaru slova
Šanda, Pavel ; Burget, Radim (oponent) ; Karásek, Jan (vedoucí práce)
Lemmatizace je důležitou procedurou před dolováním v textu v mnoha aplikacích. Proces lemmatizace je podobný procesu stemmingu, s tím rozdílem, že neurčuje pouze kořen slova, ale snaží se slovo převést pomocí metod Brute Force a Suffix Stripping do jeho základního tvaru. Hlavním cílem této práce je prezentovat metody pro vylepšení algoritmů lemmatizace českého jazyka. Obsahem je vytvoření trénovací množiny dat, kterou lze libovolně použít pro studentské i vědecké práce zabývající se podobnou problematikou.
Systém slovenské morfologie založený na vzorech
Klocok, Andrej ; Dytrych, Jaroslav (oponent) ; Smrž, Pavel (vedoucí práce)
Cieľom tejto práce je zoznámenie sa s metódami morfologickej analýzy, reprezentáciou dát morfologických slovníkov, vytvorením systému technických vzorov pre flektívnu morfológiu slovenčiny. Z tohto systému je odvodený morfologický analyzátor, ktorý vstupné slová lematizuje, určí ich vzor a morfologickú značku, nástroj pre porovnávanie a vyhodnocovanie stemerov, ktorý hodnotí stemery na základe derivačného slovníka, nástroj na rekonštrukciu diakritiky, ktorý vznikol ako pomocný nástroj. V posledných kapitolách práce sú jednotlivé nástroje zhodnotené, analyzátor je porovnaný s dostupnou alternatívou, pomocou nástroja na hodnotenie stemerov sú porovnané dve implementácie slovenských stemerov a je naznačený ďalší vývoj jednotlivých nástrojov
Rychlá adaptace počítačové podpory hry Krycí jména pro nové jazyky
Jareš, Petr ; Otrusina, Lubomír (oponent) ; Smrž, Pavel (vedoucí práce)
Tato diplomová práce rozšiřuje herní systém umělého hráče slovně-asociační hry Krycí jména o snadné přídání podpory pro nové jazyky. Systém je schopný hrát Krycí jména v rolích hádajícího hráče, zadavatele nápověd a jejich kombinací hráče verze Duet. K analýze různých jazyků byl použit neurální nástroj Stanza, který je jazykově nezávislý a umožňujě automatizované zpracování celé řady jazyků. Jednalo se především o lemmatizaci slov a určování slovních druhů pro výběr kandidátních nápověd ve hře. Pro vyhodnocení slovních asociací byla testována řada modelů, kde nejlepších výsledků dosahovala metoda Pointwise Mutual Information a prediktivní model fastText. Systém podporuje hraní Krycích jmen v 36 jazycích tvořených 8 různými abecedami.
Aplikace pro sumarizaci textu
Mička, Jakub ; Zendulka, Jaroslav (oponent) ; Bartík, Vladimír (vedoucí práce)
V této práci jsem se zaměřil na implementaci webové aplikace, která slouží jako prostředek pro automatickou tvorbu souhrnů v anglickém jazyce. Automatická tvorba souhrnů je v řešení prováděna pomocí metody TextRank a Latentní sémantické analýzy. Obě tyto metody jsou vylepšeny o rozpoznávání pojmenovaných entit. Přínosem této práce je zjištění, že využití rozpoznávání pojmenovaných entit u Latentní sémantické analýzy a především u metody TextRank, vede k vytváření kvalitnějších souhrnů. Tato kvalita souhrnů byla ověřena pomocí metrik ROUGE.
Automatická tvorba slovníků z překladových textů
Sumbalová, Lenka ; Kouřil, Jan (oponent) ; Smrž, Pavel (vedoucí práce)
Cílem této bakalářské práce bylo vytvořit systém pro automatickou tvorbu slovníků z překladových testů. Je popsána implementace systému, který generuje česko-anglický slovník ze zarovnaného paralelního korpusu a shrnut výsledek práce. Dále je analyzován paralelní korpus CzEng, který byl použit jako zdroj dat pro slovníky a vysvětleny teoretické pojmy související s touto problematikou.
Paralelní korpusový manažer
Kouřil, Jan ; Dytrych, Jaroslav (oponent) ; Smrž, Pavel (vedoucí práce)
Cílem diplomové práce bylo implementovat paralelní korpusový manažer, který umí zarovnat paralelní cizojazyčné texty a vložit je do korpusu, kde jsou poskytnuty další funkce pro jejich zpracování. Program poskytuje možnosti automatického zarovnání paralelních textů a jejich interaktivní úpravy. Tyto zarovnané texty se následně vkládají do korpusu. Program umí spravovat několik korpusů, paralelní korpus je identifikován vždy dvojicí jazyků. V korpusu je potom možno vyhledávat podle několika kategorií, zobrazovat a editovat jednotlivé výběry, lemmatizovat a morfologicky značkovat dané texty, provádět různá třídění výběrů, importovat a exportovat data, různými způsoby upravovat korpus pro další snadnou navigaci a přidávat další významy do spravovaných slovníků. Jednotlivé kapitoly popisují úvod ke korpusové problematice, teorii zarovnání paralelních textů, morfologické značkování textu a lemmatizaci, externí nástroje v programu použité, nejčastější formáty titulků a implementační řešení jednotlivých problémů.
Rozpoznávání emocí v česky psaných textech
Červenec, Radek ; Smékal, Zdeněk (oponent) ; Burget, Radim (vedoucí práce)
Díky rozvoji informačních a komunikačních technologií v posledních letech došlo k velkému nárůstu množství informací, které denně vznikají ve formě elektronických dokumentů. Třídění a zpracování informací se stalo pro člověka velmi obtížné, a proto vzrůstá obliba systémů automatického dolování znalostí z textu. Zajímavou podoblastí jsou systémy pro analýzu sentimentu a automatického rozpoznání emocí v textech, které mají potencionálně široké uplatnění. V rámci této práce byl navržen a implementován systém využívající technik dolování znalostí z textu za účelem rozpoznávání emocí v česky psaných textech a bylo provedeno zhodnocení jeho úspěšnosti. Protože je systém postaven převážně na metodě strojového učení, byla navrhnuta a vytvořena trénovací množina, která byla posléze použita k vytvoření modelu klasifikátoru pomocí algoritmu podpůrných vektorů (SVM). Pro potřeby zpřesnění výsledků klasifikace textových dokumentů do předem definovaných emočních tříd, jsou do systému integrovány další prvky, jako např.: lexikální databáze, lemmatizátor a odvozený slovník klíčových slov. Součástí práce je také zhodnocení několika přístupů ke klasifikaci s různými modifikacemi navrženého systému.
Czech-English Translation
Petrželka, Jiří ; Schmidt, Marek (oponent) ; Smrž, Pavel (vedoucí práce)
This Master's thesis describes the principles of statistical machine translation and demonstrates how to assemble the Moses statistical machine translation system. In the preparation step, a research on freely available bilingual Czech-English corpora is done. An empirical analysis of time requirements of multithreaded word alignment tools demonstrates that MGIZA++ can achieve a five-fold speed-up, while PGIZA++ can reach an eight-fold speed-up (compared to GIZA++).Three scenarios of morphological pre-processing of Czech training data are tested, using simple unfactored models. While pure lemmatization can aggravate the BLEU, more sophisticated approaches usually raise BLEU. The positive effect of morphological pre-processing diminishes as corpus size rises. The relation between other corpora characteristics (size, genre, extra data) and the resulting BLEU are empirically gauged. A final system is trained on the CzEng 0.9 corpus and evaluated on the testing set from WMT 2010 workshop.
Slovenská lemmatizace
Lipták, Šimon ; Dytrych, Jaroslav (oponent) ; Smrž, Pavel (vedoucí práce)
Cieľom tejto bakalárskej práce bolo zoznámiť sa s nástrojmi a metódami pre morfologickú analýzu a lematizáciu slov, navrhnúť a implementovať systém, ktorý dokáže lematizovať slovenské slová, ktoré sa nenachádzajú v slovníku a následne vypísať vyskloňované tvary, spracovať slovenské dáta pre implementáciu stemmingu. Na záver vyhodnotiť úspešnosť na základe testovania a porovnať s dostupnými alternatívami.
Rychlá adaptace počítačové podpory hry Krycí jména pro nové jazyky
Jareš, Petr ; Otrusina, Lubomír (oponent) ; Smrž, Pavel (vedoucí práce)
Tato diplomová práce rozšiřuje herní systém umělého hráče slovně-asociační hry Krycí jména o snadné přídání podpory pro nové jazyky. Systém je schopný hrát Krycí jména v rolích hádajícího hráče, zadavatele nápověd a jejich kombinací hráče verze Duet. K analýze různých jazyků byl použit neurální nástroj Stanza, který je jazykově nezávislý a umožňujě automatizované zpracování celé řady jazyků. Jednalo se především o lemmatizaci slov a určování slovních druhů pro výběr kandidátních nápověd ve hře. Pro vyhodnocení slovních asociací byla testována řada modelů, kde nejlepších výsledků dosahovala metoda Pointwise Mutual Information a prediktivní model fastText. Systém podporuje hraní Krycích jmen v 36 jazycích tvořených 8 různými abecedami.

Národní úložiště šedé literatury : Nalezeno 22 záznamů.   1 - 10dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.