Národní úložiště šedé literatury Nalezeno 22 záznamů.  1 - 10dalšíkonec  přejít na záznam: Hledání trvalo 0.02 vteřin. 
Hledání sémantické informace v textových datech s využitím latentní analýzy
Řezníček, Pavel
První část práce se věnuje teoretickému úvodu do vybraných metod text miningu - Information retrieval, klasifikace a shlukování. Je představena metoda LSA jakožto pokročilejší model pro reprezentaci textových dat. Dále jsou v práci popsána zdrojová data a metody pro jejich předzpracování a přípravu použité za účelem zvýšení efektivity text miningových metod. Pro jednotlivé oblasti text miningu jsou definovány hodnotící metriky a jsou představeny použité již existující, případně nově implementované, programy. Výsledky experimentů, srovnávajících vliv různého předzpracování a využití odlišných modelů zdrojových dat, jsou následně přehledně demonstrovány a v závěru práce diskutovány.
Ghostwriting detector
Dobeš, Erik
Cílem této práce je analyzovat, navrhnout a implementovat metody, kterými lze v dokumentu vybrat slova do doplňovacího testu, která nejlépe odrážejí autorský styl a téma daného dokumentu. U daných slov lze předpokládat, že je-li jejich autor požádán o jejich doplnění v kontextu celého odstavce, kde se nacházejí, existuje vysoká pravděpodobnost jejich úspěšného vyplnění. Naopak doplňuje-li daná slova stejným způsobem čtenář bez bližší znalosti autorova stylu, pravděpodobnost korektního doplnění je nízká, ne však nulová. V práci navržené metody potvrdily tento předpoklad o úspěšnosti či neúspěšnosti doplnění slov. Vybraná slova však musejí být plnovýznamová. Jedním z důvodů je, že odrážejí téma textu. Mezi úspěšné a zároveň nejefektivnější metody představené v mé prací patří Metoda užití nejfrekventovanějších trigramů a Metoda užití nejfrekventovanějších plnovýznamových slov. V práci bylo také zjištěno, že složitost textu negativně ovlivňuje úspěšnost doplnění slov u lidí, kteří nenapsali text, z nějž daný test vychází. Náročnost textu však neovlivňuje úspěšnost doplnění slov u autorů.
Předzpracování a transformace textových kolekcí dat
Maruna, Viktor ; Burget, Radek (oponent) ; Bartík, Vladimír (vedoucí práce)
Tato bakalářská práce se zabývá problematikou získávání znalostí z textů, především se zaměřením na předzpracování a transformaci. V teoretické části práce jsou obsaženy informace o vývoji a metodach procesů získávání znalostí z textů, textových kolekcí dat a využití v praxi. Další část této práce detailně popisuje jednotlivé kroky procesu předzpracování a transformace textových kolekcí dat. V závěrečných částech je přehled o vývoji aplikace, testování a osobní zhodnocení práce.
Metody stemmingu používané při dolování textu
Adámek, Tomáš ; Chmelař, Petr (oponent) ; Bartík, Vladimír (vedoucí práce)
Tématem této diplomové práce je problematika jednotlivých metod pro dolování z anglických textových dokumentů. Hlavní část této práce se zabývá analýzou metod pro předzpracování textu, konkrétně stemmingem. Jsou zde rozebrány jednotlivé algoritmy stemmingu (Lovinsův, Porterův a Paice/Husk), které z jednotlivých slov textového dokumentu získávají jejich základní tvar (kořen), za použití speciálních lexikografických pravidel anglického jazyka. Tyto kořeny slov jsou následně uloženy do strukturované podoby pro další zpracování. Další část práce se zabývá návrhem aplikace, která tyto algoritmy využívá pro svoji činnost. Aplikace je postavena na platformě Java s využitím grafické knihovny Swing a architektury MVC. Další kapitola popisuje implementaci navržené aplikace a stemovacích algoritmů v jazyce Java. Poslední kapitola je zaměřena na experimenty s jednotlivými algoritmy a jejich srovnání z hlediska vlivu na výsledky klasifikace textu.
Určení základního tvaru slova
Šanda, Pavel ; Burget, Radim (oponent) ; Karásek, Jan (vedoucí práce)
Lemmatizace je důležitou procedurou před dolováním v textu v mnoha aplikacích. Proces lemmatizace je podobný procesu stemmingu, s tím rozdílem, že neurčuje pouze kořen slova, ale snaží se slovo převést pomocí metod Brute Force a Suffix Stripping do jeho základního tvaru. Hlavním cílem této práce je prezentovat metody pro vylepšení algoritmů lemmatizace českého jazyka. Obsahem je vytvoření trénovací množiny dat, kterou lze libovolně použít pro studentské i vědecké práce zabývající se podobnou problematikou.
Metody pro získávání asociačních pravidel z dat
Uhlíř, Martin ; Burget, Radek (oponent) ; Bartík, Vladimír (vedoucí práce)
Cieľom práce je implementácia metódy Multipass-Apriori pre získavanie asociačných pravidiel z textových dát. Po úvode do problematiky dolovania z dát je spomenutá špecifickosť dolovania znalostí z textových dát. Veľmi dôležitú úlohu v tomto procese zohráva predspracovanie, v tomto prípade najmä použitie stemmingu, a vytvorenie slovníka nepotrebných slov (stopwords). Významu, využitiu a procesu získavania asociačných pravidiel je venovaná ďalšia časť práce. Najväčšia pozornosť je venovaná metóde Multipass-Apriori, ktorá bola naimplementovaná a bol popísaný princíp jej fungovania. Na základe vykonaných testov bol stanovený optimálny spôsob rozdelenia partícií a spôsob usporiadania množín. Pri praktických testoch bola metóda Multipass-Apriori porovnávaná s metódou Apriori.
Nalezení slovních kořenů v češtině
Hellebrand, David ; Bartík, Vladimír (oponent) ; Chmelař, Petr (vedoucí práce)
Cílem této diplomové práce je vytvořit pro český jazyk lemmatizační algoritmus založený na gramatických pravidlech. Práce obsahuje popis problematiky lemmatizace a několika různých lemmatizačních algoritmů. Dále jsou popsány základy gramatiky českého jazyka a také jazyka Snowball, ve kterém budou navržené postupy implementovány. Hlavní část tvoří popis implementace lemmatizačního algoritmu.
Odvození slovníku pro nástroj Process Inspector na platformě SharePoint
Pavlín, Václav ; Masařík, Karel (oponent) ; Kreslíková, Jitka (vedoucí práce)
Tato diplomová představuje metody pro dolování důležitých informací z textu. Analyzuje problém extrakce pojmů z rozsáhlé sady dokumentů a popisuje implementaci řešení s využitím jazyka C# a databázového systému Microsoft SQL Server. Systém k extrakci pojmů využívá lemmatizaci výrazů a několik statistických metod. Práce také srovnává použité metody a navrhuje postup odvození slovníku.
Slovenská lemmatizace
Lipták, Šimon ; Dytrych, Jaroslav (oponent) ; Smrž, Pavel (vedoucí práce)
Cieľom tejto bakalárskej práce bolo zoznámiť sa s nástrojmi a metódami pre morfologickú analýzu a lematizáciu slov, navrhnúť a implementovať systém, ktorý dokáže lematizovať slovenské slová, ktoré sa nenachádzajú v slovníku a následne vypísať vyskloňované tvary, spracovať slovenské dáta pre implementáciu stemmingu. Na záver vyhodnotiť úspešnosť na základe testovania a porovnať s dostupnými alternatívami.
Searching relevant articles in extensive collections
Vojt, Ján ; Novák, Jiří (vedoucí práce) ; Bartoš, Tomáš (oponent)
Vyhledávání textu v článcích se standartně řeší fulltextovým vyhledáváním. Při použití pokročilejších metod je možné dosáhnout výrazně lepších výsledků. Předmětem této práce je vytvořit univerzální knihovnu na prohledávání rozsáhlých kolekcí, která je přizpůsobena pro český jazyk. Využívá nástroje schopné pracovat s morfologií a zohledňovat důležitost slov. Součástí je experiment se slovnými spojeními, které do vyhledávání zapojují kontext. Míra uspěšnosti experimentu je ověřena na rozsáhlé kolekci dat. Vytvořená knihovna je tak unikátním nástrojem na zpracování rozsáhlých kolekcí českého textu, přičemž je připravena na rozšíření o další jazyky a metody.

Národní úložiště šedé literatury : Nalezeno 22 záznamů.   1 - 10dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.