Název:
Návrh a implementace Data Mining modelu v technologii MS SQL Server
Překlad názvu:
Design and implementation of Data Mining model with MS SQL Server technology
Autoři:
Peroutka, Lukáš ; Maryška, Miloš (vedoucí práce) ; Smutný, Zdeněk (oponent) Typ dokumentu: Diplomové práce
Rok:
2012
Jazyk:
cze
Nakladatel: Vysoká škola ekonomická v Praze
Abstrakt: [cze][eng] Tato práce se zabývá návrhem a implementací data miningové úlohy s reálnými daty. Úloha bude analyzována, zpracována a její dosažené výsledky vyhodnoceny. Zdrojovým datovým souborem je databáze obsahující studijní záznamy Vysoké ško-le ekonomické v Praze. V první teoretické části se práce zaměřuje na dolování z dat, definici pojmu, histo-rický vývoj data miningu, analýzu a popis jednotlivých částí dolovací úlohy a sou-časnou metodologii. Představeny jsou nejznámější používané dolovací techniky a standardy, včetně jejich vlastností, výhod a nevýhod při praktickém nasazení. Ana-lyzována jsou také vstupní data, zejména z pohledu kvality a operací ve fázi před-zpracování dat pro dolovací úlohu. Následně je přistoupeno k aplikaci teoretických znalostí na reálnou úlohu data mi-ningu. Zdrojový soubor se školními daty je popsán, analyzován a vhodné atributy jsou vybrány jako základ pro tvorbu dolovacích modelů. Ty jsou poté na platformě MS SQL Server vytvořeny s cílem najít, prozkoumat a popsat možné závislosti a asociace v datech. Dílčí výsledky jednotlivých modelů a jejich potenciální přínos jsou zhodnoceny, a to včetně návrhu možných vylepšení a dalšího budoucího využití výsledků.This thesis focuses on design and implementation of a data mining solution with real-world data. The task is analysed, processed and its results evaluated. The mined data set contains study records of students from University of Economics, Prague (VŠE) over the course of past three years. First part of the thesis focuses on theory of data mining, definition of the term, history and development of this particular field. Current best practices and meth-odology are described, as well as methods for determining the quality of data and methods for data pre-processing ahead of the actual data mining task. The most common data mining techniques are introduced, including their basic concepts, advantages and disadvantages. The theoretical basis is then used to implement a concrete data mining solution with educational data. The source data set is described, analysed and some of the data are chosen as input for created models. The solution is based on MS SQL Server data mining platform and it's goal is to find, describe and analyse potential as-sociations and dependencies in data. Results of respective models are evaluated, including their potential added value. Also mentioned are possible extensions and suggestions for further development of the solution.
Klíčová slova:
analýza dat; Bayesovský klasifikátor; CRISP-DM; Data mining; metody data miningu; neuronové sítě; rozhodovací stromy; shluková analýza; školní data; Bayes classification; clustering; CRISP-DM; data analysis; data mining; data mining techniques; decision trees; educational data; neural networks
Instituce: Vysoká škola ekonomická v Praze
(web)
Informace o dostupnosti dokumentu:
Dostupné v digitálním repozitáři VŠE. Původní záznam: http://www.vse.cz/vskp/eid/39392