Národní úložiště šedé literatury Nalezeno 21 záznamů.  začátekpředchozí12 - 21  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Předzpracování a transformace textových kolekcí dat
Maruna, Viktor ; Burget, Radek (oponent) ; Bartík, Vladimír (vedoucí práce)
Tato bakalářská práce se zabývá problematikou získávání znalostí z textů, především se zaměřením na předzpracování a transformaci. V teoretické části práce jsou obsaženy informace o vývoji a metodach procesů získávání znalostí z textů, textových kolekcí dat a využití v praxi. Další část této práce detailně popisuje jednotlivé kroky procesu předzpracování a transformace textových kolekcí dat. V závěrečných částech je přehled o vývoji aplikace, testování a osobní zhodnocení práce.
Nalezení slovních kořenů v češtině
Hellebrand, David ; Bartík, Vladimír (oponent) ; Chmelař, Petr (vedoucí práce)
Cílem této diplomové práce je vytvořit pro český jazyk lemmatizační algoritmus založený na gramatických pravidlech. Práce obsahuje popis problematiky lemmatizace a několika různých lemmatizačních algoritmů. Dále jsou popsány základy gramatiky českého jazyka a také jazyka Snowball, ve kterém budou navržené postupy implementovány. Hlavní část tvoří popis implementace lemmatizačního algoritmu.
Metody pro získávání asociačních pravidel z dat
Uhlíř, Martin ; Burget, Radek (oponent) ; Bartík, Vladimír (vedoucí práce)
Cieľom práce je implementácia metódy Multipass-Apriori pre získavanie asociačných pravidiel z textových dát. Po úvode do problematiky dolovania z dát je spomenutá špecifickosť dolovania znalostí z textových dát. Veľmi dôležitú úlohu v tomto procese zohráva predspracovanie, v tomto prípade najmä použitie stemmingu, a vytvorenie slovníka nepotrebných slov (stopwords). Významu, využitiu a procesu získavania asociačných pravidiel je venovaná ďalšia časť práce. Najväčšia pozornosť je venovaná metóde Multipass-Apriori, ktorá bola naimplementovaná a bol popísaný princíp jej fungovania. Na základe vykonaných testov bol stanovený optimálny spôsob rozdelenia partícií a spôsob usporiadania množín. Pri praktických testoch bola metóda Multipass-Apriori porovnávaná s metódou Apriori.
Odvození slovníku pro nástroj Process Inspector na platformě SharePoint
Pavlín, Václav ; Masařík, Karel (oponent) ; Kreslíková, Jitka (vedoucí práce)
Tato diplomová představuje metody pro dolování důležitých informací z textu. Analyzuje problém extrakce pojmů z rozsáhlé sady dokumentů a popisuje implementaci řešení s využitím jazyka C# a databázového systému Microsoft SQL Server. Systém k extrakci pojmů využívá lemmatizaci výrazů a několik statistických metod. Práce také srovnává použité metody a navrhuje postup odvození slovníku.
Metody sumarizace textových dokumentů
Pokorný, Lubomír ; Očenášek, Pavel (oponent) ; Bartík, Vladimír (vedoucí práce)
Diplomová práce se zabývá jednodokumentovou sumarizací textových dat. Část práce je věnována přípravě dat, která je tvořena hlavně normalizací. Uvedeny jsou v ní některé algoritmy stemizace a obsahuje i popis lematizace. Hlavní část práce je věnována Luhnově sumarizační metodě a jejímu rozšíření za pouţití slovníku WordNet. Popsána a implementována byla i Oswaldova metoda. Navrţená a implementovaná aplikace provádí automatickou tvorbu abstraktů za pouţití zmíněných metod. Byla provedena i sada experimentů, kterými byla ověřena správná funkčnost aplikace.
Metody stemmingu používané při dolování textu
Adámek, Tomáš ; Chmelař, Petr (oponent) ; Bartík, Vladimír (vedoucí práce)
Tématem této diplomové práce je problematika jednotlivých metod pro dolování z anglických textových dokumentů. Hlavní část této práce se zabývá analýzou metod pro předzpracování textu, konkrétně stemmingem. Jsou zde rozebrány jednotlivé algoritmy stemmingu (Lovinsův, Porterův a Paice/Husk), které z jednotlivých slov textového dokumentu získávají jejich základní tvar (kořen), za použití speciálních lexikografických pravidel anglického jazyka. Tyto kořeny slov jsou následně uloženy do strukturované podoby pro další zpracování. Další část práce se zabývá návrhem aplikace, která tyto algoritmy využívá pro svoji činnost. Aplikace je postavena na platformě Java s využitím grafické knihovny Swing a architektury MVC. Další kapitola popisuje implementaci navržené aplikace a stemovacích algoritmů v jazyce Java. Poslední kapitola je zaměřena na experimenty s jednotlivými algoritmy a jejich srovnání z hlediska vlivu na výsledky klasifikace textu.
Vyhledávání informací v digitálních knihovnách
Hochmal, Petr ; Rychlý, Marek (oponent) ; Chmelař, Petr (vedoucí práce)
Tato práce se zabývá způsoby vyhledávání informací. Popisuje modely pro vyhledávání dat a metody pro hodnocení efektivity systémů pro vyhledávání informací. Přibližuje principy zpracování vstupních textů pro IR systémy s použitím seznamu stop slov a stemmeru. Dále ukazuje způsob rozšíření dotazů o synonyma pomocí thesauru, metody pro zohlednění frází v dotazech a představuje myšlenku ohodnocení dokumentu dle stupně podobnosti výskytu fráze. V druhé polovině práce je popsán návrh systému pro vyhledávání s užitím vektorového modelu, rozšíření dotazu o synonyma a zohlednění výskytů frází. Tento systém je implementován v jazyce C# jako aplikace pro vyhledávání a správu dokumentů v digitálních knihovnách. Efektivita tohoto systému je pomocí několika testů vyhodnocena na konci práce.
Určení základního tvaru slova
Šanda, Pavel ; Burget, Radim (oponent) ; Karásek, Jan (vedoucí práce)
Lemmatizace je důležitou procedurou před dolováním v textu v mnoha aplikacích. Proces lemmatizace je podobný procesu stemmingu, s tím rozdílem, že neurčuje pouze kořen slova, ale snaží se slovo převést pomocí metod Brute Force a Suffix Stripping do jeho základního tvaru. Hlavním cílem této práce je prezentovat metody pro vylepšení algoritmů lemmatizace českého jazyka. Obsahem je vytvoření trénovací množiny dat, kterou lze libovolně použít pro studentské i vědecké práce zabývající se podobnou problematikou.
Hledání sémantické informace v textových datech s využitím latentní analýzy
Řezníček, Pavel
První část práce se věnuje teoretickému úvodu do vybraných metod text miningu - Information retrieval, klasifikace a shlukování. Je představena metoda LSA jakožto pokročilejší model pro reprezentaci textových dat. Dále jsou v práci popsána zdrojová data a metody pro jejich předzpracování a přípravu použité za účelem zvýšení efektivity text miningových metod. Pro jednotlivé oblasti text miningu jsou definovány hodnotící metriky a jsou představeny použité již existující, případně nově implementované, programy. Výsledky experimentů, srovnávajících vliv různého předzpracování a využití odlišných modelů zdrojových dat, jsou následně přehledně demonstrovány a v závěru práce diskutovány.
Jak kvalita lemmatizace ovlivňuje výsledky vyhledávání dokumentů v českém jazyce
Pytelka, Petr ; Strossa, Petr (vedoucí práce) ; Pinkas, Otakar (oponent)
Cílem práce je měření kvality lemmatizace pro český jazyk v systémech zpracování doku-mentů a analýza výsledků tohoto měření. V teoretické části práce je popsán princip plno-textového vyhledávání, možnosti realizace lemmatizace a běžné problémy, které je nutné řešit při zpracování přirozeného jazyka. V práci jsou diskutovány možnosti hodnocení kva-lity lemmatizace pomocí měření přesnosti a úplnosti vyhledávání. Pro detailnější hodnocení lemmatizátoru je popsána metoda měření nadměrné a nedostatečné lemmatizace. V druhé části práce je navržen experiment a testovací aplikace pro měření kvality lemmati-zace ve třech systémech, které jsou používány pro realizaci vyhledávání dokumentů. Jedná se o knihovnu Apache Lucene, databázové systémy PostgreSQL a Microsoft SQL Server. Experiment je prováděn s využitím Pražského závislostního korpusu, a to pro korpus jako celek a zvlášť pro vybrané slovní druhy. Rozbor výsledků pro výchozí lemmatizátor pro český jazyk v Lucene umožnil návrh několika drobných úprav, které vedou k měřitelnému zlepšení vyhledávání. Výsledky práce ukazují, jak lze využít uvedené metriky a podrobné výsledky pro zlepšování lemmatizačních algoritmů a tím i pro zkvalitnění plnotextového vyhledávání pro český jazyk.

Národní úložiště šedé literatury : Nalezeno 21 záznamů.   začátekpředchozí12 - 21  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.