Národní úložiště šedé literatury Nalezeno 21 záznamů.  předchozí11 - 20další  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Slovenská lemmatizace
Lipták, Šimon ; Dytrych, Jaroslav (oponent) ; Smrž, Pavel (vedoucí práce)
Cieľom tejto bakalárskej práce bolo zoznámiť sa s nástrojmi a metódami pre morfologickú analýzu a lematizáciu slov, navrhnúť a implementovať systém, ktorý dokáže lematizovať slovenské slová, ktoré sa nenachádzajú v slovníku a následne vypísať vyskloňované tvary, spracovať slovenské dáta pre implementáciu stemmingu. Na záver vyhodnotiť úspešnosť na základe testovania a porovnať s dostupnými alternatívami.
Předzpracování a transformace textových kolekcí dat
Maruna, Viktor ; Burget, Radek (oponent) ; Bartík, Vladimír (vedoucí práce)
Tato bakalářská práce se zabývá problematikou získávání znalostí z textů, především se zaměřením na předzpracování a transformaci. V teoretické části práce jsou obsaženy informace o vývoji a metodach procesů získávání znalostí z textů, textových kolekcí dat a využití v praxi. Další část této práce detailně popisuje jednotlivé kroky procesu předzpracování a transformace textových kolekcí dat. V závěrečných částech je přehled o vývoji aplikace, testování a osobní zhodnocení práce.
Nalezení slovních kořenů v češtině
Hellebrand, David ; Bartík, Vladimír (oponent) ; Chmelař, Petr (vedoucí práce)
Cílem této diplomové práce je vytvořit pro český jazyk lemmatizační algoritmus založený na gramatických pravidlech. Práce obsahuje popis problematiky lemmatizace a několika různých lemmatizačních algoritmů. Dále jsou popsány základy gramatiky českého jazyka a také jazyka Snowball, ve kterém budou navržené postupy implementovány. Hlavní část tvoří popis implementace lemmatizačního algoritmu.
Metody pro získávání asociačních pravidel z dat
Uhlíř, Martin ; Burget, Radek (oponent) ; Bartík, Vladimír (vedoucí práce)
Cieľom práce je implementácia metódy Multipass-Apriori pre získavanie asociačných pravidiel z textových dát. Po úvode do problematiky dolovania z dát je spomenutá špecifickosť dolovania znalostí z textových dát. Veľmi dôležitú úlohu v tomto procese zohráva predspracovanie, v tomto prípade najmä použitie stemmingu, a vytvorenie slovníka nepotrebných slov (stopwords). Významu, využitiu a procesu získavania asociačných pravidiel je venovaná ďalšia časť práce. Najväčšia pozornosť je venovaná metóde Multipass-Apriori, ktorá bola naimplementovaná a bol popísaný princíp jej fungovania. Na základe vykonaných testov bol stanovený optimálny spôsob rozdelenia partícií a spôsob usporiadania množín. Pri praktických testoch bola metóda Multipass-Apriori porovnávaná s metódou Apriori.
Odvození slovníku pro nástroj Process Inspector na platformě SharePoint
Pavlín, Václav ; Masařík, Karel (oponent) ; Kreslíková, Jitka (vedoucí práce)
Tato diplomová představuje metody pro dolování důležitých informací z textu. Analyzuje problém extrakce pojmů z rozsáhlé sady dokumentů a popisuje implementaci řešení s využitím jazyka C# a databázového systému Microsoft SQL Server. Systém k extrakci pojmů využívá lemmatizaci výrazů a několik statistických metod. Práce také srovnává použité metody a navrhuje postup odvození slovníku.
Metody sumarizace textových dokumentů
Pokorný, Lubomír ; Očenášek, Pavel (oponent) ; Bartík, Vladimír (vedoucí práce)
Diplomová práce se zabývá jednodokumentovou sumarizací textových dat. Část práce je věnována přípravě dat, která je tvořena hlavně normalizací. Uvedeny jsou v ní některé algoritmy stemizace a obsahuje i popis lematizace. Hlavní část práce je věnována Luhnově sumarizační metodě a jejímu rozšíření za pouţití slovníku WordNet. Popsána a implementována byla i Oswaldova metoda. Navrţená a implementovaná aplikace provádí automatickou tvorbu abstraktů za pouţití zmíněných metod. Byla provedena i sada experimentů, kterými byla ověřena správná funkčnost aplikace.
Metody stemmingu používané při dolování textu
Adámek, Tomáš ; Chmelař, Petr (oponent) ; Bartík, Vladimír (vedoucí práce)
Tématem této diplomové práce je problematika jednotlivých metod pro dolování z anglických textových dokumentů. Hlavní část této práce se zabývá analýzou metod pro předzpracování textu, konkrétně stemmingem. Jsou zde rozebrány jednotlivé algoritmy stemmingu (Lovinsův, Porterův a Paice/Husk), které z jednotlivých slov textového dokumentu získávají jejich základní tvar (kořen), za použití speciálních lexikografických pravidel anglického jazyka. Tyto kořeny slov jsou následně uloženy do strukturované podoby pro další zpracování. Další část práce se zabývá návrhem aplikace, která tyto algoritmy využívá pro svoji činnost. Aplikace je postavena na platformě Java s využitím grafické knihovny Swing a architektury MVC. Další kapitola popisuje implementaci navržené aplikace a stemovacích algoritmů v jazyce Java. Poslední kapitola je zaměřena na experimenty s jednotlivými algoritmy a jejich srovnání z hlediska vlivu na výsledky klasifikace textu.
Vyhledávání informací v digitálních knihovnách
Hochmal, Petr ; Rychlý, Marek (oponent) ; Chmelař, Petr (vedoucí práce)
Tato práce se zabývá způsoby vyhledávání informací. Popisuje modely pro vyhledávání dat a metody pro hodnocení efektivity systémů pro vyhledávání informací. Přibližuje principy zpracování vstupních textů pro IR systémy s použitím seznamu stop slov a stemmeru. Dále ukazuje způsob rozšíření dotazů o synonyma pomocí thesauru, metody pro zohlednění frází v dotazech a představuje myšlenku ohodnocení dokumentu dle stupně podobnosti výskytu fráze. V druhé polovině práce je popsán návrh systému pro vyhledávání s užitím vektorového modelu, rozšíření dotazu o synonyma a zohlednění výskytů frází. Tento systém je implementován v jazyce C# jako aplikace pro vyhledávání a správu dokumentů v digitálních knihovnách. Efektivita tohoto systému je pomocí několika testů vyhodnocena na konci práce.
Určení základního tvaru slova
Šanda, Pavel ; Burget, Radim (oponent) ; Karásek, Jan (vedoucí práce)
Lemmatizace je důležitou procedurou před dolováním v textu v mnoha aplikacích. Proces lemmatizace je podobný procesu stemmingu, s tím rozdílem, že neurčuje pouze kořen slova, ale snaží se slovo převést pomocí metod Brute Force a Suffix Stripping do jeho základního tvaru. Hlavním cílem této práce je prezentovat metody pro vylepšení algoritmů lemmatizace českého jazyka. Obsahem je vytvoření trénovací množiny dat, kterou lze libovolně použít pro studentské i vědecké práce zabývající se podobnou problematikou.
Hledání sémantické informace v textových datech s využitím latentní analýzy
Řezníček, Pavel
První část práce se věnuje teoretickému úvodu do vybraných metod text miningu - Information retrieval, klasifikace a shlukování. Je představena metoda LSA jakožto pokročilejší model pro reprezentaci textových dat. Dále jsou v práci popsána zdrojová data a metody pro jejich předzpracování a přípravu použité za účelem zvýšení efektivity text miningových metod. Pro jednotlivé oblasti text miningu jsou definovány hodnotící metriky a jsou představeny použité již existující, případně nově implementované, programy. Výsledky experimentů, srovnávajících vliv různého předzpracování a využití odlišných modelů zdrojových dat, jsou následně přehledně demonstrovány a v závěru práce diskutovány.

Národní úložiště šedé literatury : Nalezeno 21 záznamů.   předchozí11 - 20další  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.