Original title:
Zpracování asociačních pravidel metodou vícekriteriálního shlukování
Translated title:
Post-processing of association rules by multicriterial clustering method
Authors:
Kejkula, Martin ; Rauch, Jan (advisor) ; Berka, Petr (referee) ; Máša, Petr (referee) Document type: Doctoral theses
Year:
2002
Language:
cze Publisher:
Vysoká škola ekonomická v Praze Abstract:
[cze][eng] Cílem této práce je navrhnout metodu, která by umožňovala zpracovat množinu asociačních pravidel: měla by poskytovat strukturovaný, přehledný popis celé množiny asociačních pravidel, získané libovolnou implementací nějakého algoritmu pro hledání asociačních pravidel v analyzovaných datech. Měla by uživateli poskytnout přehled o množině vygenerovaných asociačních pravidel a usnadnit její zpracování. Způsob dosažení cíle, zvolený v této práci je: rozdělit množinu asociačních pravidel do podmnožin. Asociační pravidla v jedné podmnožině by si měla být vzájemně více podobná než pravidla ze dvou různých podmnožin. Hlavním přínosem této práce je nová originální metoda zpracování asociačních pravidel. Vedlejším přínosem práce je rozsáhlá rešerše publikovaných metod zpracování asociačních pravidel. Metoda vícekriteriálního shlukování poskytuje rozdělení asociačních pravidel do skupin vzájemně si podobných pravidel (tzv. "přirozených shluků"), kterého není možné dosáhnout žádnou z doposud známých metod. Metoda používá nový způsob reprezentace asociačních pravidel, inspirovaný vektorovým modelem, používaným v oblasti zpracování informačních fondů (information retrieval). V práci je popsán převod asociačních pravidel do vektorového modelu, analogickému k vektorové reprezentaci dokumentů. Jádrem metody je dvojí, na sobě nezávislé shlukování asociačních pravidel: shlukování kvantitativních charakteristik (jako jsou např. spolehlivost, podpora, faktor zajímavosti) a cedentální shlukování asociačních pravidel (inspirované shlukováním dokumentů). Struktura práce: na úvodní kapitolu navazuje kapitola, popisující proces dobývání znalostí z databází. Proces je popsán na základě vybraných metodik (CRISP-DM, SEMMA, GUHA, RAMSYS).Třetí kapitola je věnována pojmu asociační pravidlo a charakteristikám asociačních pravidel. Další kapitola obsahuje rešerši současných metod post-processingu asociačních pravidel. Pátá kapitola seznamuje s problematikou shlukování. Šestá kapitola obsahuje popis metody vícekriteriálního shlukování asociačních pravidel. Další kapitola se věnuje experimentům. Osmá kapitola se zabývá možnostmi využití metody.Association rules mining is one of several ways of knowledge discovery in databases. Paradoxically, data mining itself can produce such great amounts of association rules that there is a new knowledge management problem: there can easily be thousands or even more association rules holding in a data set. The goal of this work is to design a new method for association rules post-processing. The method should be software and domain independent. The output of the new method should be structured description of the whole set of discovered association rules. The output should help user to work with discovered rules. The path to reach the goal I used is: to split association rules into clusters. Each cluster should contain rules, which are more similar each other than to rules from another cluster. The output of the method is such cluster definition and description. The main contribution of this Ph.D. thesis is the described new Multicriterial clustering association rules method. Secondary contribution is the discussion of already published association rules post-processing methods. The output of the introduced new method are clusters of rules, which cannot be reached by any of former post-processing methods. According user expectations clusters are more relevant and more effective than any former association rules clustering results. The method is based on two orthogonal clustering of the same set of association rules. One clustering is based on interestingness measures (confidence, support, interest, etc.). Second clustering is inspired by document clustering in information retrieval. The representation of rules in vectors like documents is fontal in this thesis. The thesis is organized as follows. Chapter 2 identify the role of association rules in the KDD (knowledge discovery in databases) process, using KDD methodologies (CRISP-DM, SEMMA, GUHA, RAMSYS). Chapter 3 define association rule and introduce characteristics of association rules (including interestingness measuress). Chapter 4 introduce current association rules post-processing methods. Chapter 5 is the introduction to cluster analysis. Chapter 6 is the description of the new Multicriterial clustering association rules method. Chapter 7 consists of several experiments. Chapter 8 discuss possibilities of usage and development of the new method.
Keywords:
association rules; cluster analysis; data exploration; data mining; exploratory data analysis; interestingness measures; interpretation; knowledge discovery in databases; post-processing; asociacní pravidla; data mining; dobývání znalostí z databází; explorační analýza dat; interpretace; míry zajímavosti; post-processing; průzkum dat; shluková analýza; shlukování
Institution: University of Economics, Prague
(web)
Document availability information: Available in the digital repository of the University of Economics, Prague. Original record: http://www.vse.cz/vskp/eid/27155