Název:
Porovnání metod získávání znalostí z dat
Překlad názvu:
Comparing methods of knowledge discovery from data
Autoři:
Jungmannová, Iva ; Ivánek, Jiří (vedoucí práce) ; Dvořák, Jan (oponent) Typ dokumentu: Diplomové práce
Rok:
2019
Jazyk:
cze
Abstrakt: [cze][eng] (česky) Diplomová práce se zabývá porovnáním některých metod dobývání znalostí z dat. Na vzorku dat se aplikovaly metody rozhodovacího stromu, klasifikačních pravidel, shlukové analýzy a naivního bayesovského klasifikátoru. Pracovalo se s daty o klientech neziskové organizace Asociace občanských poraden. Postupovalo se podle technologického procesu dobývání znalostí, proběhl popis dat, předzpracování dat, data mining (modelování) a otestování a interpretace výsledků. Vzhledem k aplikaci na shodný vzorek dat, s podobným předzpracováním dat, se dalo očekávat, že část výsledků by mohla být rovněž odpovídající. Zjišťoval se nejen překryv výsledků, ale i jejich rozdíly. Zjišťovalo se, jaké charakteristiky mají klienti podle jejich výše dluhu. Výsledky opravdu ukázaly některé vzory opakující se ve většině metod. Vyšlo najevo, že výše dluhu klienta souvisí s počtem věřitelů klienta. Čím větší počet věřitelů, tím spíše má klient vyšší dluhy. U klientů s větším dluhem se také objevovala vyšší celková výše závazků. Toto zřejmě nejsou nijak překvapivé závěry, avšak dokazují funkčnost modelů a porovnatelnost výsledků.(in English): The thesis is devoted to the comparison of a few methods of mining knowledge from data. Methods decision tree, classification rules, cluster analysis, and Naive Bayes classifier were applied to the data sample. Data about clients of a non-profit organization Association of Civil Counseling were used. It has been worked according to the technological process of knowledge mining. In the thesis was applied data description, data preparation, modeling and testing and results from interpretation. Because of using the same sample of data and similar data preparation, overlapping results are also expected. The research is focused not only on results similarity, but also differences in results. The correlation between the amount of debt of clients and other attributes was found. In the results, there really were some patterns repeating through most of all methods. It turned out the amount of debt is related to a number of creditors. The more creditors, the higher amount of debt. Clients with a higher amount of liabilities had also higher debt. The results might not be surprising, but it proves the functionality of models and comparability of results.
Klíčová slova:
dobývání znalostí z databází|data mining|strojové učení|statistika|datová analýza|získávání znalostí; knowledge mining from databases|data mining|machine learning|statistics|data analysis|knowledge acquisition