Název:
Hodnocení výsledků metod shlukové analýzy
Překlad názvu:
Evaluation of Cluster Analysis Methods
Autoři:
Löster, Tomáš ; Řezanková, Hana (vedoucí práce) ; Berka, Petr (oponent) ; Dohnal, Gejza (oponent) Typ dokumentu: Disertační práce
Rok:
2004
Jazyk:
cze
Nakladatel: Vysoká škola ekonomická v Praze
Abstrakt: [cze][eng] Shluková analýza zahrnuje řadu metod a postupů, které slouží především ke klasifikaci objektů. Zastává významnou roli v mnoha odvětvích. Vzhledem k tomu, že se výsledná rozdělení objektů do shluků mohou lišit v závislosti na zvolených metodách a dílčích specifikacích, je vhodné získané výsledky hodnotit. Jedním z cílů této disertační práce bylo vytvořit strukturovaný přehled existujících koeficientů a postupů určených pro hodnocení výsledků shlukování, a to jednak v závislosti na použitých metodách, jednak v závislosti na počtu shluků. Hlavním cílem pak bylo navržení nových, resp. modifikace existujících koeficientů pro hodnocení těchto výsledků v situaci, kdy jsou objekty charakterizované kvalitativními proměnnými, resp. proměnnými různých typů. Nově navržené koeficienty jsou založeny na zjišťování variability, která je současně využívána i pro stanovení odlišnosti objektů i shluků. Variabilita v případě nominálních proměnných je zjišťována buď na základě variačního poměru, nebo pomocí entropie, či Giniho koeficientu, v případě ordinálních proměnných pak na základě koeficientu dorvar; v případě kombinace s kvantitativními proměnnými jde o kombinaci s využitím rozptylu. Vhodnost použití vybraných koeficientů je zkoumána na reálných datech, u kterých je buď známé, nebo neznámé zařazení objektů do shluků. Analyzované datové soubory jsou různého rozsahu, obsahují různé typy a počty proměnných. V daných situacích je zjišťována možnost aplikace vybraných koeficientů pro stanovení optimálního počtu shluků. Cíle práce je tedy možné považovat za splněné. Přínosem této disertační práce je navržení nových způsobů měření podobnosti objektů a shluků v případech, jsou-li objekty charakterizovány jinými než pouze kvantitativními proměnnými. Dalším přínosem je klasifikace existujících hodnotících koeficientů. Stěžejním přínosem je navržení nových koeficientů pro případ kvalitativních proměnných, resp. proměnných různých typů. Na základě provedených analýz byl identifikován koeficient, pomocí něhož bylo možné správně určit optimální počet shluků (na rozdíl od dosud používaného koeficientu).Cluster analysis includes a range of methods and practices that are used primarily for classification of objects. It takes an important role in many areas. Since the resulting distribution of objects into clusters may vary depending on the selected methods and specifications, it is appropriate to assess the results obtained. This paper proposes new ways of evaluating these results in a situation where objects are characterized by qualitative variables or by variables of different types. These coefficients can be used either to compare different methods (in terms of better outcomes) or for finding of the optimal number of clusters. All of them are based on the detection of variability which is also used for measuring of dissimilarity of objects and clusters. The newly proposed evaluation methods are applied to real data sets (of different sizes, with different number of variables, including variables of different types) and the behavior of these coefficients in different conditions is being examined. These data sets have known as well as unknown classification of objects into clusters. The best coefficient for evaluating clustering results with different types of variables can be considered, based on the analysis carried out, the modified coefficient of CHF. Local maximum value according to which the results of the clustering are evaluated, almost always exists. The analysis has proven that in most cases this value meets the expected results of the well-known classification of objects into clusters. The existence of local extremes of the other coefficients depends on specific data sets and is not always feasible.
Klíčová slova:
hodnocení výsledků shlukování; metody shlukování; míry podobnosti; míry vzdálenosti; optimální počet shluků; shluková analýza; cluster analysis; methods for cluster analysis; optimal number of clusters; validity assessment; validity measures
Instituce: Vysoká škola ekonomická v Praze
(web)
Informace o dostupnosti dokumentu:
Dostupné v digitálním repozitáři VŠE. Původní záznam: http://www.vse.cz/vskp/eid/28022