keywords:"tf-idf" - Výsledky hledání - Digitální repozitář

host :: přihlásit Digitální repozitář
		Hledej		Nový záznam		Nápověda		O repozitáři

Hlavní stránka > Výsledky hledání: keywords:"tf-idf"

Hledej:

Tipy pro vyhledávaní :: Rozšířené hledání

Hledej ve sbírkách:

Seřadit podle:	Zobrazit výsledky:	Výstupní formát:

	Klasifikační framework Koroncziová, Dominika ; Otrusina, Lubomír (oponent) ; Kouřil, Jan (vedoucí práce) Cílem této práce je návrh a implementace klasifikačního software postaveného na knihovně RapidMiner. Výsledná aplikace bude sdružovat nejpoužívanější algoritmy a procesy implementované v RapidMineru do jednoduchého použitelného programu. Součástí nároků na aplikaci je jednoduché rozhraní pro ovládání z příkazové řádky, stejně jako grafické rozhraní zjednodušující nastavení více parametrů. Aplikace má také umožňovat tvorbu samostatných jednoúčelových programů, sloužících na opakovanou klasifikaci s použitím předem natrénovaného modelu. Nad rámec původního zadání je implementována i práce s textovými daty z Wikipedie, jejich stáhnutí a předzpracování a následné použití jako trénovacích dat. Text práce se zabývá postupně jednotlivými algoritmy a popisem kvalifikačních algoritmů, jejich vlastnostmi a použitím, a popisuje návrh a implementaci systému. V rámci práce byla vykonána i sada několika testů pro ověření výkonu a funkcionality aplikace. Jejich výsledky jsou shrnuty v závěru práce. Úplný záznam
	Sémantická podobnost článků Veselovský, Martin ; Otrusina, Lubomír (oponent) ; Kouřil, Jan (vedoucí práce) Tato práce se zabývá modelováním struktury sémantických vztahů mezi články v anglickém jazyce. Představuje existující metody pro reprezentaci a výpočet podobnosti článků. Základnou metodou je vektorový model, který reprezentuje dokument jako vektor slov. Jednotlivým slovům jsou v rámci modelu určené váhy důležitosti metodou TF-IDF. Dále jsou zde popsány pokročilé metody modelování a to Latentní sémantická analýza (LSA) a Latentní Dirichletova alokace (LDA). Práce se také zabývá články, které jsou sémanticky anotované, přičemž váhy anotačních slov jsou vypočítány na základe metody SGD. Vyhodnocení výsledků probíhá na připraveném testovacím korpusu dokumentů, ke kterému existuje referenční hodnocení podobnosti. Úplný záznam
	Reprezentace textu a její vliv na kategorizaci Šabatka, Ondřej ; Chmelař, Petr (oponent) ; Bartík, Vladimír (vedoucí práce) Diplomová práce se zabývá strojovým zpracováním textových dat. V teoretické části jsou popsány problémy související se zpracováním přirozeného jazyka a dále jsou představeny různé způsoby předzpracování a reprezentace textu. Práce se také blíže věnuje použití N-gramů jako rysů pro reprezentaci dokumentů a popisuje některé algoritmy sloužící pro jejich extrakci. Další část je pak věnována přehledu používaných klasifikačních metod. V rámci praktické části práce byla navržena a implementována aplikace sloužící pro předzpracování a vytváření různých reprezentací textových dat. V rámci experimentů je pak sledován vliv těchto reprezentací na úspěšnost klasifikačních algoritmů. Úplný záznam
	Mining of Textual Data from the Web for Speech Recognition Kubalík, Jakub ; Plchot, Oldřich (oponent) ; Mikolov, Tomáš (vedoucí práce) The preliminary goals of this project were to get familiar with language modeling for speech recognition and techniques for acquisition of text data from the Web. Speech recognition techniques are introduced and statistical language modeling is described in detail. The text also covers mining models and techniques, information retrieval especially. Specific problems of Web mining are discussed and Google search is introduced. Special attention was paid to detailed description of implementation of the text mining system. However, the main goal of this work was to determine, whether the data acquired from the Web can provide some improvement into the recognition systems. The text is describing experiments, which use the retrieved Web data to update sample language models. Úplný záznam
	Odvození slovníku pro nástroj Process Inspector na platformě SharePoint Pavlín, Václav ; Masařík, Karel (oponent) ; Kreslíková, Jitka (vedoucí práce) Tato diplomová představuje metody pro dolování důležitých informací z textu. Analyzuje problém extrakce pojmů z rozsáhlé sady dokumentů a popisuje implementaci řešení s využitím jazyka C# a databázového systému Microsoft SQL Server. Systém k extrakci pojmů využívá lemmatizaci výrazů a několik statistických metod. Práce také srovnává použité metody a navrhuje postup odvození slovníku. Úplný záznam
	Metody klasifikace webových stránek Nachtnebl, Viktor ; Burget, Radek (oponent) ; Bartík, Vladimír (vedoucí práce) Tato práce se zabývá metodami klasifikace webových stránek. Vysvětluje pojem klasifikace a popisuje různé vlastnosti stránek využívané pro jejich klasifikaci. Dále rozebírá reprezentaci stránky a podrobným způsobem je popsána klasifikační metoda, která pracuje s hierarchickým modelem kategorií a je schopna dynamicky vytvářet nové kategorie. Ve své druhé polovině se věnuje implementaci zvolené metody a výsledkům, které popisuje. Úplný záznam
	Využití metod dolování dat pro analýzu sociálních sítí Novosad, Andrej ; Očenášek, Pavel (oponent) ; Bartík, Vladimír (vedoucí práce) Práce se zabývá problematikou dolování dat v prostředí sociálních sítí. Podává přehled o dolování z dat a možných metodách dolování. Práce také zkoumá sociální média a sítě, co mohou poskytnout a jaké problémy se sebou přinášejí. Jsou prozkoumané API třech sociálních sítí a jejich možnosti z hlediska získání dat vhodných pro dolování. Zkoumají se techniky dolování znalostí z textových dat. Je popsán způsob implementace webové aplikace, která doluje data ze sociální sítě Twitter pomoci algoritmu SVM. Implementovaná aplikace klasifikuje zprávy na základě jejich textu do tříd reprezentujících kontinenty původu. Je provedeno několik experimentů v softwaru RapidMiner a v implementované webové aplikaci a jejich výsledky jsou prozkoumány. Úplný záznam
	Sledovač aktuálního dění Odstrčilík, Martin ; Otrusina, Lubomír (oponent) ; Kouřil, Jan (vedoucí práce) Cílem diplomové práce bylo vytvoření aplikace pro sledování aktuálního dění v okolí jejího uživatele. Tato aplikace by měla umožňovat jejím uživatelům události nejen sledovat, ale také přidávat své vlastní či komentovat již existující. Diplomová práce se mimo tvorbu dané aplikace zaobírá analýzou předloženého problému. Analýza zahrnuje průzkum existujících řešení, dostupných technologií a aplikačních rámců využitelných k implementaci. Součástí práce je i popis teorie klasifikace dat, která je v rámci vyvíjené aplikace použita k analýze událostí a komentářů. V textu práce je dále zahrnut návrh řešení, jenž se zaměřuje na návrh uživatelského rozhraní, architektury aplikace, databáze, komunikačního protokolu a klasifikátorů. Jádrem práce je pak popis implementace aplikace. V závěru práce je pak shrnut její průběh a jsou navrhována vhodná rozšíření do budoucna. Úplný záznam
	Sémantická podobnost textů Bradáč, Václav ; Otrusina, Lubomír (oponent) ; Smrž, Pavel (vedoucí práce) Tato práce se zabývá problematikou určování sémantické podobnosti textů se zaměřením na škálovatelnost. Součástí zpracování je teoretický přehled nástrojů pro implementaci systému na testovaných datech. Testovaný korpus obsahuje odborné články v anglickém jazyce. Cílem práce je tyto články analyzovat, modifikovat pro snadnější analýzu jejich sémantické obdoby. Jedním z nejdůležitějších využitých nástrojů je reprezentace dat ve vektorovém prostoru. Úplný záznam
	Improved Prediction of Social Tags Using Data Mining Harár, Pavol ; Galáž, Zoltán (oponent) ; Kříž, Jiří (vedoucí práce) This master’s thesis deals with using Text mining as a method to predict tags of articles. It describes the iterative way of handling big data files, parsing the data, cleaning the data and scoring of terms in article using TF-IDF. It describes in detail the flow of program written in programming language Python 3.4.3. The result of processing more than 1 million articles from Wikipedia database is a dictionary of English terms. By using this dictionary one is capable of determining the most important terms from article in corpus of articles. Relevancy of consequent tags proves the method used in this case. Úplný záznam

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.

Digitální repozitář :: :: :: ::
Powered by v1.1.2
Spravuje

Tato stránka je dostupná také v následujících jazycích:
Česky English