Original title:
Vyhledávání informací v textových datech
Translated title:
Information Retrieval in Text Data
Authors:
Tkadlčík, Luboš ; Burget, Radek (referee) ; Bartík, Vladimír (advisor) Document type: Bachelor's theses
Year:
2013
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Tato práce se zabývá problematikou dolování textových dat a vyhledávání informací. Práce popisuje nejčastější metody reprezentace textových dokumentů a strategie vyhledávání. Cílem práce je navržení a implementace aplikace, která bude provádět vyhledávání informací pomocí vektorového modelu. Aplikace realizuje tři způsoby výpočtu podobnosti: kosinovou míru, Jaccardův koeficient a Diceho koeficient. Výsledky dosažené pomocí těchto vztahů jsou porovnány a vyhodnoceny. Je nastíněno další pokračování projektu.
This thesis researches the issue of text data mining and information retrieval. It describes the most common representations of text documents and retrieval strategies. The aim of this thesis is design and implementation of application, which realises information retrieval via vector space model. The application implements three different ways of similarity calculation: cosine measure, the Jaccard coefficient and the Dice coefficient. Achieved results are assessed. Possible continuance of the project is outlined.
Keywords:
Cosine measure; Dice coefficient; information retrieval; Jaccard coefficient; relevance; text data mining; vector space model; Diceho koeficient; dolování textových dat; Jaccardův koeficient; kosinová míra; relevance; vektorový model; vyhledávání informací
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/52883