keywords:"Text mining" - Výsledky hledání - Digitální repozitář

host :: přihlásit Digitální repozitář
		Hledej		Nový záznam		Nápověda		O repozitáři

Hlavní stránka > Výsledky hledání: keywords:"Text mining"

Hledej:

Tipy pro vyhledávaní :: Rozšířené hledání

Hledej ve sbírkách:

Seřadit podle:	Zobrazit výsledky:	Výstupní formát:

	Metody stemmingu používané při dolování textu Adámek, Tomáš ; Chmelař, Petr (oponent) ; Bartík, Vladimír (vedoucí práce) Tématem této diplomové práce je problematika jednotlivých metod pro dolování z anglických textových dokumentů. Hlavní část této práce se zabývá analýzou metod pro předzpracování textu, konkrétně stemmingem. Jsou zde rozebrány jednotlivé algoritmy stemmingu (Lovinsův, Porterův a Paice/Husk), které z jednotlivých slov textového dokumentu získávají jejich základní tvar (kořen), za použití speciálních lexikografických pravidel anglického jazyka. Tyto kořeny slov jsou následně uloženy do strukturované podoby pro další zpracování. Další část práce se zabývá návrhem aplikace, která tyto algoritmy využívá pro svoji činnost. Aplikace je postavena na platformě Java s využitím grafické knihovny Swing a architektury MVC. Další kapitola popisuje implementaci navržené aplikace a stemovacích algoritmů v jazyce Java. Poslední kapitola je zaměřena na experimenty s jednotlivými algoritmy a jejich srovnání z hlediska vlivu na výsledky klasifikace textu. Úplný záznam
	Improved Prediction of Social Tags Using Data Mining Harár, Pavol ; Galáž, Zoltán (oponent) ; Kříž, Jiří (vedoucí práce) This master’s thesis deals with using Text mining as a method to predict tags of articles. It describes the iterative way of handling big data files, parsing the data, cleaning the data and scoring of terms in article using TF-IDF. It describes in detail the flow of program written in programming language Python 3.4.3. The result of processing more than 1 million articles from Wikipedia database is a dictionary of English terms. By using this dictionary one is capable of determining the most important terms from article in corpus of articles. Relevancy of consequent tags proves the method used in this case. Úplný záznam
	Určení základního tvaru slova Šanda, Pavel ; Burget, Radim (oponent) ; Karásek, Jan (vedoucí práce) Lemmatizace je důležitou procedurou před dolováním v textu v mnoha aplikacích. Proces lemmatizace je podobný procesu stemmingu, s tím rozdílem, že neurčuje pouze kořen slova, ale snaží se slovo převést pomocí metod Brute Force a Suffix Stripping do jeho základního tvaru. Hlavním cílem této práce je prezentovat metody pro vylepšení algoritmů lemmatizace českého jazyka. Obsahem je vytvoření trénovací množiny dat, kterou lze libovolně použít pro studentské i vědecké práce zabývající se podobnou problematikou. Úplný záznam
	Rozpoznávání emocí v česky psaných textech Červenec, Radek ; Smékal, Zdeněk (oponent) ; Burget, Radim (vedoucí práce) Díky rozvoji informačních a komunikačních technologií v posledních letech došlo k velkému nárůstu množství informací, které denně vznikají ve formě elektronických dokumentů. Třídění a zpracování informací se stalo pro člověka velmi obtížné, a proto vzrůstá obliba systémů automatického dolování znalostí z textu. Zajímavou podoblastí jsou systémy pro analýzu sentimentu a automatického rozpoznání emocí v textech, které mají potencionálně široké uplatnění. V rámci této práce byl navržen a implementován systém využívající technik dolování znalostí z textu za účelem rozpoznávání emocí v česky psaných textech a bylo provedeno zhodnocení jeho úspěšnosti. Protože je systém postaven převážně na metodě strojového učení, byla navrhnuta a vytvořena trénovací množina, která byla posléze použita k vytvoření modelu klasifikátoru pomocí algoritmu podpůrných vektorů (SVM). Pro potřeby zpřesnění výsledků klasifikace textových dokumentů do předem definovaných emočních tříd, jsou do systému integrovány další prvky, jako např.: lexikální databáze, lemmatizátor a odvozený slovník klíčových slov. Součástí práce je také zhodnocení několika přístupů ke klasifikaci s různými modifikacemi navrženého systému. Úplný záznam
	Tvorba rodokmenů pomocí moderních ICT nástrojů Hošek, Martin ; Samec, Marek (vedoucí práce) ; Jelínek, Ivan (oponent) Tato bakalářská práce se zabývá rodokmeny, jejich vytvářením za využití elektronických zdrojů, softwarových či webových prostředků a způsoby zjišťování informací a zajímavostí o historii rodu z těchto zdrojů. Cílem práce je vytvořit metodickou příručku / návod, jak s pomocí těchto zdrojů a prostředků s vytvářením rodokmenu začít a jak ho vytvořit. V první části jsou teoreticky definované důležité pojmy a metody zjišťování potřebných informací. Druhá část popisuje samotný postup vytvoření rodokmenu. V závěrečné části je shrnuto, jak při tvorbě rodokmenu postupovat a čeho se vyvarovat. Úplný záznam
	Options of automated categorization of contracts Bereš, Miroslav ; Jelínek, Ivan (vedoucí práce) ; Oškera, Radek (oponent) Objektem zájmu mé bakalářské práce je automatická kategorizace. Hlavním cílem je přezkoumání současných přístupů k automatické kategorizaci, návrh metodiky a provedení experimentu, ve kterém se sleduje úspěšnost kategorizovaných kontraktů veřejné zprávy s využitím strojového učení. Bakalářská práce je rozdělena do dvou hlavních částí. První část je věnována teorii, která přibližuje a vysvětluje danou problematiku. Rovněž jsou v této části popsány současné přístupy k automatické kategorizaci. Druhá část je zaměřena na navržení metodiky experimentu a jeho provedení, během kterého se sleduje úspěšnost automatické kategorizace kontraktů. V průběhu experimentu jsou vytvořeny modely, které se v konečném důsledku aplikují na kontrolní skupinu. Výstupem jsou rozkategorizované dokumenty, při kterých se sleduje úspěšnost jejich kategorizace. Za tímto účelem je v práci použit program Apache OpenNLP. Teoretická část a návrh metodiky experimentu je vypracována na základě studia zahraniční odborné literatury primárně získané z online elektronických a informačních zdrojů. Úplný záznam
	Hledání sémantické informace v textových datech s využitím latentní analýzy Řezníček, Pavel První část práce se věnuje teoretickému úvodu do vybraných metod text miningu - Information retrieval, klasifikace a shlukování. Je představena metoda LSA jakožto pokročilejší model pro reprezentaci textových dat. Dále jsou v práci popsána zdrojová data a metody pro jejich předzpracování a přípravu použité za účelem zvýšení efektivity text miningových metod. Pro jednotlivé oblasti text miningu jsou definovány hodnotící metriky a jsou představeny použité již existující, případně nově implementované, programy. Výsledky experimentů, srovnávajících vliv různého předzpracování a využití odlišných modelů zdrojových dat, jsou následně přehledně demonstrovány a v závěru práce diskutovány. Úplný záznam
	Automatizace generování stopslov Krupník, Jiří Práce se zabývá automatizací generování stopslov, což je jeden ze způsobů předzpracování textových dokumentů. Zkoumá vliv odstraňování těchto slov na výsledky úloh z oblasti dolování znalostí (klasifikace a shlukování). Prvně je zde popsána problematika dolování znalostí z textových dokumentů, včetně rozboru používaných algoritmů. Detailně jsou zde popsány metody pro vytváření doménově nezávislých seznamů stopslov. Dále jsou prezentovány a diskutovány výsledky implementace metod, kterých bylo dosaženo při testování na kolekci rozsáhlých dokumentů ze zkoumané oblasti. Úplný záznam
	Computational Systems for Selection and Priorization of Candidate Genes that Underlie Human Hereditary Disease Adášková, Jana The aim of this paper is to present an overview of six independent computational methods for the selection and prioritization of candidate genes for human diseases and, rather than selecting a best method, to offer the prospective user a better understanding of the inputs, outputs and functionality of each available method. A survey of these methods also offers the bioinformatics community an opportunity to assess the efficacy of current computational approaches to disease gene identification, and informs future directions for research in this field. Plný tet: 0373338 - PDF Plný text: content.csg - PDF Úplný záznam
	Extrakce informací z textu Michalko, Boris ; Labský, Martin (vedoucí práce) ; Svátek, Vojtěch (oponent) ; Nováček, Jan (oponent) Cieľom tejto práce je preskúmať dostupné systémy pre extrakciu informácií a možnosti ich použitia v projekte MedIEQ. Teoretickú časť obsahuje úvod do oblasti extrakcie informácií. Popisujem účel, potreby a použitie a vzťah k iným úlohám spracovania prirodzeného jazyka. Prechádzam históriou, nedávnym vývojom, meraním výkonnosti a jeho kritikou. Taktiež popisujem všeobecnú architektúru IE systému a základné úlohy, ktoré má riešiť, s dôrazom na extrakciu entít. V praktickej časti sa nacházda prehľad algoritmov používaných v systémoch pre extrakciu informácií. Opisujem oba typy algoritmov ? pravidlové aj štatistické. V ďalšej kapitole je zoznam a krátky popis existujúcich voľných systémov. Nakoniec robím vlastný experiment s dvomi systémami ? LingPipe a GATE na vybraných korpusoch. Meriam rôzne výkonnostné štatistiky. Taktiež som vytvoril malý slovník a regulárny výraz pre email aby som demonštroval taktiež pravidlá pre extrahovanie určitých špecifických informácií. Úplný záznam

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.

Digitální repozitář :: :: :: ::
Powered by v1.1.2
Spravuje

Tato stránka je dostupná také v následujících jazycích:
Česky English