Národní úložiště šedé literatury Nalezeno 22 záznamů.  předchozí11 - 20další  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Morphological segmentation of Czech Words
Vidra, Jonáš ; Žabokrtský, Zdeněk (vedoucí práce) ; Mareček, David (oponent)
V lingvistice se obvykle slova považují za složená z morfémů, což jsou dále neděli- telné jazykové jednotky nesoucí význam. Zadáním této práce je nalézt automatickou metodu dělení českých slov na morfémy, které by bylo možné přidat do DeriNetu, sítě derivačních vztahů mezi českými slovy. Vytvořili jsme dvě různé takové metody. První nalézá hranice morfémů na zá- kladě hledání rozdílů mezi slovem a jeho derivačním předkem, a tranzitivně mezi všemi slovy v derivačním hnízdě. Tato metoda explicitně modeluje hláskové a mor- fologické alternace a nalézá nejvhodnější hranice morfémů pomocí metody maximál- ní věrohodnosti. Ve srovnání s moderním systémem Morfessor FlatCat naše metoda přinejhorším mírně zaostává, ovšem v některých testech naopak dosahuje výsledků výrazně lepších. Druhou metodou je neuronová síť pro současné předpovídání morfologické seg- mentace a derivačních předků, trénovaná na datech získaných první metodou a na de- rivačních vztazích ze sítě DeriNet. S naší hypotézou, že tento způsob trénování dvou úloh naráz pomůže k dosažení lepších výsledků oproti trénování samotné segmenta- ce, jsou však ve shodě pouze některé provedené pokusy. Celkově dosahuje neuronová síť horších výsledků než první metoda, pravděpodobně kvůli trénování na datech ob- sahujících chyby, které se tím přidávají k chybám...
Searching relevant articles in extensive collections
Vojt, Ján ; Novák, Jiří (vedoucí práce) ; Bartoš, Tomáš (oponent)
Vyhledávání textu v článcích se standartně řeší fulltextovým vyhledáváním. Při použití pokročilejších metod je možné dosáhnout výrazně lepších výsledků. Předmětem této práce je vytvořit univerzální knihovnu na prohledávání rozsáhlých kolekcí, která je přizpůsobena pro český jazyk. Využívá nástroje schopné pracovat s morfologií a zohledňovat důležitost slov. Součástí je experiment se slovnými spojeními, které do vyhledávání zapojují kontext. Míra uspěšnosti experimentu je ověřena na rozsáhlé kolekci dat. Vytvořená knihovna je tak unikátním nástrojem na zpracování rozsáhlých kolekcí českého textu, přičemž je připravena na rozšíření o další jazyky a metody.
Slovenská lemmatizace
Lipták, Šimon ; Dytrych, Jaroslav (oponent) ; Smrž, Pavel (vedoucí práce)
Cieľom tejto bakalárskej práce bolo zoznámiť sa s nástrojmi a metódami pre morfologickú analýzu a lematizáciu slov, navrhnúť a implementovať systém, ktorý dokáže lematizovať slovenské slová, ktoré sa nenachádzajú v slovníku a následne vypísať vyskloňované tvary, spracovať slovenské dáta pre implementáciu stemmingu. Na záver vyhodnotiť úspešnosť na základe testovania a porovnať s dostupnými alternatívami.
Předzpracování a transformace textových kolekcí dat
Maruna, Viktor ; Burget, Radek (oponent) ; Bartík, Vladimír (vedoucí práce)
Tato bakalářská práce se zabývá problematikou získávání znalostí z textů, především se zaměřením na předzpracování a transformaci. V teoretické části práce jsou obsaženy informace o vývoji a metodach procesů získávání znalostí z textů, textových kolekcí dat a využití v praxi. Další část této práce detailně popisuje jednotlivé kroky procesu předzpracování a transformace textových kolekcí dat. V závěrečných částech je přehled o vývoji aplikace, testování a osobní zhodnocení práce.
Nalezení slovních kořenů v češtině
Hellebrand, David ; Bartík, Vladimír (oponent) ; Chmelař, Petr (vedoucí práce)
Cílem této diplomové práce je vytvořit pro český jazyk lemmatizační algoritmus založený na gramatických pravidlech. Práce obsahuje popis problematiky lemmatizace a několika různých lemmatizačních algoritmů. Dále jsou popsány základy gramatiky českého jazyka a také jazyka Snowball, ve kterém budou navržené postupy implementovány. Hlavní část tvoří popis implementace lemmatizačního algoritmu.
Metody pro získávání asociačních pravidel z dat
Uhlíř, Martin ; Burget, Radek (oponent) ; Bartík, Vladimír (vedoucí práce)
Cieľom práce je implementácia metódy Multipass-Apriori pre získavanie asociačných pravidiel z textových dát. Po úvode do problematiky dolovania z dát je spomenutá špecifickosť dolovania znalostí z textových dát. Veľmi dôležitú úlohu v tomto procese zohráva predspracovanie, v tomto prípade najmä použitie stemmingu, a vytvorenie slovníka nepotrebných slov (stopwords). Významu, využitiu a procesu získavania asociačných pravidiel je venovaná ďalšia časť práce. Najväčšia pozornosť je venovaná metóde Multipass-Apriori, ktorá bola naimplementovaná a bol popísaný princíp jej fungovania. Na základe vykonaných testov bol stanovený optimálny spôsob rozdelenia partícií a spôsob usporiadania množín. Pri praktických testoch bola metóda Multipass-Apriori porovnávaná s metódou Apriori.
Odvození slovníku pro nástroj Process Inspector na platformě SharePoint
Pavlín, Václav ; Masařík, Karel (oponent) ; Kreslíková, Jitka (vedoucí práce)
Tato diplomová představuje metody pro dolování důležitých informací z textu. Analyzuje problém extrakce pojmů z rozsáhlé sady dokumentů a popisuje implementaci řešení s využitím jazyka C# a databázového systému Microsoft SQL Server. Systém k extrakci pojmů využívá lemmatizaci výrazů a několik statistických metod. Práce také srovnává použité metody a navrhuje postup odvození slovníku.
Metody sumarizace textových dokumentů
Pokorný, Lubomír ; Očenášek, Pavel (oponent) ; Bartík, Vladimír (vedoucí práce)
Diplomová práce se zabývá jednodokumentovou sumarizací textových dat. Část práce je věnována přípravě dat, která je tvořena hlavně normalizací. Uvedeny jsou v ní některé algoritmy stemizace a obsahuje i popis lematizace. Hlavní část práce je věnována Luhnově sumarizační metodě a jejímu rozšíření za pouţití slovníku WordNet. Popsána a implementována byla i Oswaldova metoda. Navrţená a implementovaná aplikace provádí automatickou tvorbu abstraktů za pouţití zmíněných metod. Byla provedena i sada experimentů, kterými byla ověřena správná funkčnost aplikace.
Metody stemmingu používané při dolování textu
Adámek, Tomáš ; Chmelař, Petr (oponent) ; Bartík, Vladimír (vedoucí práce)
Tématem této diplomové práce je problematika jednotlivých metod pro dolování z anglických textových dokumentů. Hlavní část této práce se zabývá analýzou metod pro předzpracování textu, konkrétně stemmingem. Jsou zde rozebrány jednotlivé algoritmy stemmingu (Lovinsův, Porterův a Paice/Husk), které z jednotlivých slov textového dokumentu získávají jejich základní tvar (kořen), za použití speciálních lexikografických pravidel anglického jazyka. Tyto kořeny slov jsou následně uloženy do strukturované podoby pro další zpracování. Další část práce se zabývá návrhem aplikace, která tyto algoritmy využívá pro svoji činnost. Aplikace je postavena na platformě Java s využitím grafické knihovny Swing a architektury MVC. Další kapitola popisuje implementaci navržené aplikace a stemovacích algoritmů v jazyce Java. Poslední kapitola je zaměřena na experimenty s jednotlivými algoritmy a jejich srovnání z hlediska vlivu na výsledky klasifikace textu.
Vyhledávání informací v digitálních knihovnách
Hochmal, Petr ; Rychlý, Marek (oponent) ; Chmelař, Petr (vedoucí práce)
Tato práce se zabývá způsoby vyhledávání informací. Popisuje modely pro vyhledávání dat a metody pro hodnocení efektivity systémů pro vyhledávání informací. Přibližuje principy zpracování vstupních textů pro IR systémy s použitím seznamu stop slov a stemmeru. Dále ukazuje způsob rozšíření dotazů o synonyma pomocí thesauru, metody pro zohlednění frází v dotazech a představuje myšlenku ohodnocení dokumentu dle stupně podobnosti výskytu fráze. V druhé polovině práce je popsán návrh systému pro vyhledávání s užitím vektorového modelu, rozšíření dotazu o synonyma a zohlednění výskytů frází. Tento systém je implementován v jazyce C# jako aplikace pro vyhledávání a správu dokumentů v digitálních knihovnách. Efektivita tohoto systému je pomocí několika testů vyhodnocena na konci práce.

Národní úložiště šedé literatury : Nalezeno 22 záznamů.   předchozí11 - 20další  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.