Národní úložiště šedé literatury Nalezeno 12 záznamů.  předchozí11 - 12  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Rychlý a trénovatelný tokenizér pro přirozené jazyky
Maršík, Jiří ; Bojar, Ondřej (vedoucí práce) ; Spousta, Miroslav (oponent)
V této práci představujeme systém pro dezambiguaci hranic mezi tokeny a větami. Charakteristickým znakem programu je jeho značná konfigurovatelnost a všestrannost, tokenizér si dokáže poradit např. i s nepřerušovaným čínským textem. Tokenizér používá klasifikátory založené na modelech s maximální entropií, a jedná se tudíž o systém strojového učení, kterému je nutné předložit již tokenizovaná ukázková data k trénování. Program je doplněn nástrojem pro hlášení úspěšnosti tokenizace, což pomáhá zejména při rychlém vývoji a ladění tokenizačního procesu. Systém byl vyvinut pouze za pomoci multiplatformních knihoven a při vývoji byl kladen důraz zejména na efektivitu a správnost. Po nezbytném přehledu jiných tokenizérů a krátkém úvodu do teorie modelů s maximální entropií se většina textu práce zabývá vlastní implementací tokenizéru a vyhodnocením jeho úspěšnosti.
Metody stemmingu používané při dolování textu
Adámek, Tomáš ; Chmelař, Petr (oponent) ; Bartík, Vladimír (vedoucí práce)
Tématem této diplomové práce je problematika jednotlivých metod pro dolování z anglických textových dokumentů. Hlavní část této práce se zabývá analýzou metod pro předzpracování textu, konkrétně stemmingem. Jsou zde rozebrány jednotlivé algoritmy stemmingu (Lovinsův, Porterův a Paice/Husk), které z jednotlivých slov textového dokumentu získávají jejich základní tvar (kořen), za použití speciálních lexikografických pravidel anglického jazyka. Tyto kořeny slov jsou následně uloženy do strukturované podoby pro další zpracování. Další část práce se zabývá návrhem aplikace, která tyto algoritmy využívá pro svoji činnost. Aplikace je postavena na platformě Java s využitím grafické knihovny Swing a architektury MVC. Další kapitola popisuje implementaci navržené aplikace a stemovacích algoritmů v jazyce Java. Poslední kapitola je zaměřena na experimenty s jednotlivými algoritmy a jejich srovnání z hlediska vlivu na výsledky klasifikace textu.

Národní úložiště šedé literatury : Nalezeno 12 záznamů.   předchozí11 - 12  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.