Original title:
Metody pro získávání asociačních pravidel z dat
Translated title:
Methods for Mining Association Rules from Data
Authors:
Uhlíř, Martin ; Burget, Radek (referee) ; Bartík, Vladimír (advisor) Document type: Master’s theses
Year:
2007
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Cieľom práce je implementácia metódy Multipass-Apriori pre získavanie asociačných pravidiel z textových dát. Po úvode do problematiky dolovania z dát je spomenutá špecifickosť dolovania znalostí z textových dát. Veľmi dôležitú úlohu v tomto procese zohráva predspracovanie, v tomto prípade najmä použitie stemmingu, a vytvorenie slovníka nepotrebných slov (stopwords). Významu, využitiu a procesu získavania asociačných pravidiel je venovaná ďalšia časť práce. Najväčšia pozornosť je venovaná metóde Multipass-Apriori, ktorá bola naimplementovaná a bol popísaný princíp jej fungovania. Na základe vykonaných testov bol stanovený optimálny spôsob rozdelenia partícií a spôsob usporiadania množín. Pri praktických testoch bola metóda Multipass-Apriori porovnávaná s metódou Apriori.
The aim of this thesis is to implement Multipass-Apriori method for mining association rules from text data. After the introduction to the field of knowledge discovery, the specific aspects of text mining are mentioned. In the mining process, preprocessing is a very important problem, use of stemming and stop words dictionary is necessary in this case. Next part of thesis deals with meaning, usage and generating of association rules. The main part is focused on the description of Multipass-Apriori method, which was implemented. On the ground of executed tests the most optimal way of dividing partitions was set and also the best way of sorting the itemsets. As a part of testing, Multipass-Apriori method was compared with Apriori method.
Keywords:
Apriori; association rules; frequent itemset; Multipass-Apriori; stemming; stop words; text data preprocessing; Apriori; asociačné pravidlo; frekventovaná množina; Multipass-Apriori; predspracovanie textových dát; slovník nepotrebných slov; stemming
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/53960