Národní úložiště šedé literatury Nalezeno 77 záznamů.  začátekpředchozí68 - 77  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Metody stemmingu používané při dolování textu
Adámek, Tomáš ; Chmelař, Petr (oponent) ; Bartík, Vladimír (vedoucí práce)
Tématem této diplomové práce je problematika jednotlivých metod pro dolování z anglických textových dokumentů. Hlavní část této práce se zabývá analýzou metod pro předzpracování textu, konkrétně stemmingem. Jsou zde rozebrány jednotlivé algoritmy stemmingu (Lovinsův, Porterův a Paice/Husk), které z jednotlivých slov textového dokumentu získávají jejich základní tvar (kořen), za použití speciálních lexikografických pravidel anglického jazyka. Tyto kořeny slov jsou následně uloženy do strukturované podoby pro další zpracování. Další část práce se zabývá návrhem aplikace, která tyto algoritmy využívá pro svoji činnost. Aplikace je postavena na platformě Java s využitím grafické knihovny Swing a architektury MVC. Další kapitola popisuje implementaci navržené aplikace a stemovacích algoritmů v jazyce Java. Poslední kapitola je zaměřena na experimenty s jednotlivými algoritmy a jejich srovnání z hlediska vlivu na výsledky klasifikace textu.
Improved Prediction of Social Tags Using Data Mining
Harár, Pavol ; Galáž, Zoltán (oponent) ; Kříž, Jiří (vedoucí práce)
This master’s thesis deals with using Text mining as a method to predict tags of articles. It describes the iterative way of handling big data files, parsing the data, cleaning the data and scoring of terms in article using TF-IDF. It describes in detail the flow of program written in programming language Python 3.4.3. The result of processing more than 1 million articles from Wikipedia database is a dictionary of English terms. By using this dictionary one is capable of determining the most important terms from article in corpus of articles. Relevancy of consequent tags proves the method used in this case.
Určení základního tvaru slova
Šanda, Pavel ; Burget, Radim (oponent) ; Karásek, Jan (vedoucí práce)
Lemmatizace je důležitou procedurou před dolováním v textu v mnoha aplikacích. Proces lemmatizace je podobný procesu stemmingu, s tím rozdílem, že neurčuje pouze kořen slova, ale snaží se slovo převést pomocí metod Brute Force a Suffix Stripping do jeho základního tvaru. Hlavním cílem této práce je prezentovat metody pro vylepšení algoritmů lemmatizace českého jazyka. Obsahem je vytvoření trénovací množiny dat, kterou lze libovolně použít pro studentské i vědecké práce zabývající se podobnou problematikou.
Rozpoznávání emocí v česky psaných textech
Červenec, Radek ; Smékal, Zdeněk (oponent) ; Burget, Radim (vedoucí práce)
Díky rozvoji informačních a komunikačních technologií v posledních letech došlo k velkému nárůstu množství informací, které denně vznikají ve formě elektronických dokumentů. Třídění a zpracování informací se stalo pro člověka velmi obtížné, a proto vzrůstá obliba systémů automatického dolování znalostí z textu. Zajímavou podoblastí jsou systémy pro analýzu sentimentu a automatického rozpoznání emocí v textech, které mají potencionálně široké uplatnění. V rámci této práce byl navržen a implementován systém využívající technik dolování znalostí z textu za účelem rozpoznávání emocí v česky psaných textech a bylo provedeno zhodnocení jeho úspěšnosti. Protože je systém postaven převážně na metodě strojového učení, byla navrhnuta a vytvořena trénovací množina, která byla posléze použita k vytvoření modelu klasifikátoru pomocí algoritmu podpůrných vektorů (SVM). Pro potřeby zpřesnění výsledků klasifikace textových dokumentů do předem definovaných emočních tříd, jsou do systému integrovány další prvky, jako např.: lexikální databáze, lemmatizátor a odvozený slovník klíčových slov. Součástí práce je také zhodnocení několika přístupů ke klasifikaci s různými modifikacemi navrženého systému.
Tvorba rodokmenů pomocí moderních ICT nástrojů
Hošek, Martin ; Samec, Marek (vedoucí práce) ; Jelínek, Ivan (oponent)
Tato bakalářská práce se zabývá rodokmeny, jejich vytvářením za využití elektronických zdrojů, softwarových či webových prostředků a způsoby zjišťování informací a zajímavostí o historii rodu z těchto zdrojů. Cílem práce je vytvořit metodickou příručku / návod, jak s pomocí těchto zdrojů a prostředků s vytvářením rodokmenu začít a jak ho vytvořit. V první části jsou teoreticky definované důležité pojmy a metody zjišťování potřebných informací. Druhá část popisuje samotný postup vytvoření rodokmenu. V závěrečné části je shrnuto, jak při tvorbě rodokmenu postupovat a čeho se vyvarovat.
Options of automated categorization of contracts
Bereš, Miroslav ; Jelínek, Ivan (vedoucí práce) ; Oškera, Radek (oponent)
Objektem zájmu mé bakalářské práce je automatická kategorizace. Hlavním cílem je přezkoumání současných přístupů k automatické kategorizaci, návrh metodiky a provedení experimentu, ve kterém se sleduje úspěšnost kategorizovaných kontraktů veřejné zprávy s využitím strojového učení. Bakalářská práce je rozdělena do dvou hlavních částí. První část je věnována teorii, která přibližuje a vysvětluje danou problematiku. Rovněž jsou v této části popsány současné přístupy k automatické kategorizaci. Druhá část je zaměřena na navržení metodiky experimentu a jeho provedení, během kterého se sleduje úspěšnost automatické kategorizace kontraktů. V průběhu experimentu jsou vytvořeny modely, které se v konečném důsledku aplikují na kontrolní skupinu. Výstupem jsou rozkategorizované dokumenty, při kterých se sleduje úspěšnost jejich kategorizace. Za tímto účelem je v práci použit program Apache OpenNLP. Teoretická část a návrh metodiky experimentu je vypracována na základě studia zahraniční odborné literatury primárně získané z online elektronických a informačních zdrojů.
Hledání sémantické informace v textových datech s využitím latentní analýzy
Řezníček, Pavel
První část práce se věnuje teoretickému úvodu do vybraných metod text miningu - Information retrieval, klasifikace a shlukování. Je představena metoda LSA jakožto pokročilejší model pro reprezentaci textových dat. Dále jsou v práci popsána zdrojová data a metody pro jejich předzpracování a přípravu použité za účelem zvýšení efektivity text miningových metod. Pro jednotlivé oblasti text miningu jsou definovány hodnotící metriky a jsou představeny použité již existující, případně nově implementované, programy. Výsledky experimentů, srovnávajících vliv různého předzpracování a využití odlišných modelů zdrojových dat, jsou následně přehledně demonstrovány a v závěru práce diskutovány.
Automatizace generování stopslov
Krupník, Jiří
Práce se zabývá automatizací generování stopslov, což je jeden ze způsobů předzpracování textových dokumentů. Zkoumá vliv odstraňování těchto slov na výsledky úloh z oblasti dolování znalostí (klasifikace a shlukování). Prvně je zde popsána problematika dolování znalostí z textových dokumentů, včetně rozboru používaných algoritmů. Detailně jsou zde popsány metody pro vytváření doménově nezávislých seznamů stopslov. Dále jsou prezentovány a diskutovány výsledky implementace metod, kterých bylo dosaženo při testování na kolekci rozsáhlých dokumentů ze zkoumané oblasti.
Computational Systems for Selection and Priorization of Candidate Genes that Underlie Human Hereditary Disease
Adášková, Jana
The aim of this paper is to present an overview of six independent computational methods for the selection and prioritization of candidate genes for human diseases and, rather than selecting a best method, to offer the prospective user a better understanding of the inputs, outputs and functionality of each available method. A survey of these methods also offers the bioinformatics community an opportunity to assess the efficacy of current computational approaches to disease gene identification, and informs future directions for research in this field.
Plný tet: 0373338 - Stáhnout plný textPDF
Plný text: content.csg - Stáhnout plný textPDF
Extrakce informací z textu
Michalko, Boris ; Labský, Martin (vedoucí práce) ; Svátek, Vojtěch (oponent) ; Nováček, Jan (oponent)
Cieľom tejto práce je preskúmať dostupné systémy pre extrakciu informácií a možnosti ich použitia v projekte MedIEQ. Teoretickú časť obsahuje úvod do oblasti extrakcie informácií. Popisujem účel, potreby a použitie a vzťah k iným úlohám spracovania prirodzeného jazyka. Prechádzam históriou, nedávnym vývojom, meraním výkonnosti a jeho kritikou. Taktiež popisujem všeobecnú architektúru IE systému a základné úlohy, ktoré má riešiť, s dôrazom na extrakciu entít. V praktickej časti sa nacházda prehľad algoritmov používaných v systémoch pre extrakciu informácií. Opisujem oba typy algoritmov ? pravidlové aj štatistické. V ďalšej kapitole je zoznam a krátky popis existujúcich voľných systémov. Nakoniec robím vlastný experiment s dvomi systémami ? LingPipe a GATE na vybraných korpusoch. Meriam rôzne výkonnostné štatistiky. Taktiež som vytvoril malý slovník a regulárny výraz pre email aby som demonštroval taktiež pravidlá pre extrahovanie určitých špecifických informácií.

Národní úložiště šedé literatury : Nalezeno 77 záznamů.   začátekpředchozí68 - 77  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.