Národní úložiště šedé literatury Nalezeno 13 záznamů.  předchozí11 - 13  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Metody shlukování textových dat
Miloš, Roman ; Burgetová, Ivana (oponent) ; Bartík, Vladimír (vedoucí práce)
Shlukování textových dat je jednou z úloh dolování v textech. Slouží k rozdělení dokumentů do různých kategorií na základě jejich podobnosti, což nám umožňuje snadnější vyhledávání v takto rozdělených dokumentech. V práci jsou popsány současné metody sloužící k shlukování textových dokumentů, jež se využívají. Z těchto metod je vybrán algoritmus Simultaneous keyword identification and clustering of text documents (SKWIC), který by měl při shlukování dosahovat lepších výsledků, než standardní algoritmy jako např. k-means. Je navrhnuta a implementována aplikace řešící tento algoritmus. Na závěr je provedeno srovnání SKWIC se standardním k-means.
Metody stemmingu používané při dolování textu
Adámek, Tomáš ; Chmelař, Petr (oponent) ; Bartík, Vladimír (vedoucí práce)
Tématem této diplomové práce je problematika jednotlivých metod pro dolování z anglických textových dokumentů. Hlavní část této práce se zabývá analýzou metod pro předzpracování textu, konkrétně stemmingem. Jsou zde rozebrány jednotlivé algoritmy stemmingu (Lovinsův, Porterův a Paice/Husk), které z jednotlivých slov textového dokumentu získávají jejich základní tvar (kořen), za použití speciálních lexikografických pravidel anglického jazyka. Tyto kořeny slov jsou následně uloženy do strukturované podoby pro další zpracování. Další část práce se zabývá návrhem aplikace, která tyto algoritmy využívá pro svoji činnost. Aplikace je postavena na platformě Java s využitím grafické knihovny Swing a architektury MVC. Další kapitola popisuje implementaci navržené aplikace a stemovacích algoritmů v jazyce Java. Poslední kapitola je zaměřena na experimenty s jednotlivými algoritmy a jejich srovnání z hlediska vlivu na výsledky klasifikace textu.
Určení základního tvaru slova
Šanda, Pavel ; Burget, Radim (oponent) ; Karásek, Jan (vedoucí práce)
Lemmatizace je důležitou procedurou před dolováním v textu v mnoha aplikacích. Proces lemmatizace je podobný procesu stemmingu, s tím rozdílem, že neurčuje pouze kořen slova, ale snaží se slovo převést pomocí metod Brute Force a Suffix Stripping do jeho základního tvaru. Hlavním cílem této práce je prezentovat metody pro vylepšení algoritmů lemmatizace českého jazyka. Obsahem je vytvoření trénovací množiny dat, kterou lze libovolně použít pro studentské i vědecké práce zabývající se podobnou problematikou.

Národní úložiště šedé literatury : Nalezeno 13 záznamů.   předchozí11 - 13  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.