Original title:
Association rule mining as a support for OLAP
Translated title:
Dolování asociačních pravidel jako podpora pro OLAP
Authors:
Chudán, David ; Svátek, Vojtěch (advisor) ; Máša, Petr (referee) ; Novotný, Ota (referee) ; Kléma, Jiří (referee) Document type: Doctoral theses
Year:
2010
Language:
eng Publisher:
Vysoká škola ekonomická v Praze Abstract:
[eng][cze] The aim of this work is to identify the possibilities of the complementary usage of two analytical methods of data analysis, OLAP analysis and data mining represented by GUHA association rule mining. The usage of these two methods in the context of proposed scenarios on one dataset presumes a synergistic effect, surpassing the knowledge acquired by these two methods independently. This is the main contribution of the work. Another contribution is the original use of GUHA association rules where the mining is performed on aggregated data. In their abilities, GUHA association rules outperform classic association rules referred to the literature. The experiments on real data demonstrate the finding of unusual trends in data that would be very difficult to acquire using standard methods of OLAP analysis, the time consuming manual browsing of an OLAP cube. On the other hand, the actual use of association rules loses a general overview of data. It is possible to declare that these two methods complement each other very well. The part of the solution is also usage of LMCL scripting language that automates selected parts of the data mining process. The proposed recommender system would shield the user from association rules, thereby enabling common analysts ignorant of the association rules to use their possibilities. The thesis combines quantitative and qualitative research. Quantitative research is represented by experiments on a real dataset, proposal of a recommender system and implementation of the selected parts of the association rules mining process by LISp-Miner Control Language. Qualitative research is represented by structured interviews with selected experts from the fields of data mining and business intelligence who confirm the meaningfulness of the proposed methods.Cílem této práce je identifikovat možnosti komplementárního využití dvou metod datové analýzy, OLAP analýzy a dobývání znalostí z databází reprezentovaného GUHA asociačními pravidly. Použití těchto dvou metod v rámci navrhovaných scénářů na jednom datasetu se prokazuje synergický efekt, kdy výsledné znalosti získané z dat předčí výsledky použití obou těchto analytických metod nezávisle na sobě. To je hlavní přínos této práce. Dalším přínosem je originální využití GUHA asociačních pravidel jakožto techniky dobývání znalostí z databází, kdy dolování probíhá na agregovaných datech. GUHA asociační pravidla ve svých možnostech předčí klasická asociační pravidla uváděná v literatuře. Výsledky experimentů na reálných datech prokazují nalezení nestandardních trendů v datech, jejichž identifikace standardními metodami OLAP analýzy by vyžadovala ruční procházení dané OLAP kostky, což je časově velice náročné. Naopak při samotném použití asociačních pravidel se ztrácí celkový pohled na data, který je velmi dobře prezentován OLAP kostkou. Je možné prohlásit, že se tyto dvě metody velmi dobře doplňují. Součástí řešení je rovněž využití skriptovacího jazyka LMCL, který automatizuje vybrané části procesu dobývání znalostí z databází. Navrhovaný doporučovací nástroj by následně odstínil uživatele od asociačních pravidel a umožnil tak i běžným analytikům neznalým teorie využít jejich možnosti. Práce kombinuje kvantitativní a kvalitativní výzkum. Kvantitativní výzkum je reprezentován experimenty s reálnými daty, návrhem doporučovacího systému a implementací vybraných částí procesu dobývání znalostí z databází s využitím skriptovacího jazyka LMCL. Kvalitativní výzkum je reprezentován strukturovaným rozhovorem s vybranými experty z dané oblast, kteří potvrzují smysluplnost navrhovaných metod v této práci.
Keywords:
analytical methods combination; association rules; exploration data analysis; GUHA method; interview; OLAP; recommender system; asociační pravidla; doporučovací systém; explorační analýza dat; interview; kombinace analytických metod; metoda GUHA; OLAP
Institution: University of Economics, Prague
(web)
Document availability information: Available in the digital repository of the University of Economics, Prague. Original record: http://www.vse.cz/vskp/eid/48307