Original title:
Automatizace generování stopslov
Authors:
Krupník, Jiří Document type: Master’s theses
Year:
2014
Language:
cze Abstract:
[cze][eng] Práce se zabývá automatizací generování stopslov, což je jeden ze způsobů předzpracování textových dokumentů. Zkoumá vliv odstraňování těchto slov na výsledky úloh z oblasti dolování znalostí (klasifikace a shlukování). Prvně je zde popsána problematika dolování znalostí z textových dokumentů, včetně rozboru používaných algoritmů. Detailně jsou zde popsány metody pro vytváření doménově nezávislých seznamů stopslov. Dále jsou prezentovány a diskutovány výsledky implementace metod, kterých bylo dosaženo při testování na kolekci rozsáhlých dokumentů ze zkoumané oblasti.This diploma thesis focuses its point on automatization of stopwords generation as one method of pre-processing a textual documents. It analyses an influence of stopwords removal to a result of data mining tasks (classification and clustering). First the text mining techniques and frequently used algorithms are described. Methods of creating domain specific lists of stopwords are described to detail. In the end the results of large collections of text files testing and implementation methods are presented and discussed.
Keywords:
C5.0; K-Means; klasifikace; shlukování; stopslova; SVM; text mining; textové dokumenty