Název:
Evaluating of Fuzzy Clustering Results
Překlad názvu:
Hodnocení Výsledků Fuzzy Shlukování
Autoři:
Říhová, Elena ; Pecáková, Iva (vedoucí práce) ; Řezanková, Hana (oponent) ; Žambochová, Marta (oponent) Typ dokumentu: Disertační práce
Rok:
2013
Jazyk:
eng
Nakladatel: Vysoká škola ekonomická v Praze
Abstrakt: [eng][cze] Cluster analysis is a multivariate statistical classification method, implying different methods and procedures. Clustering methods can be divided into hard and fuzzy; the latter one provides a more precise picture of the information by clustering objects than hard clustering. But in practice, the optimal number of clusters is not known a priori, and therefore it is necessary to determine the optimal number of clusters. To solve this problem, the validity indices help us. However, there are many different validity indices to choose from. One of the goals of this work is to create a structured overview of existing validity indices and techniques for evaluating fuzzy clustering results in order to find the optimal number of clusters. The main aim was to propose a new index for evaluating the fuzzy clustering results, especially in cases with a large number of clusters (defined as more than five). The newly designed coefficient is based on the degrees of membership and on the distance (Euclidean distance) between the objects, i.e. based on principles from both fuzzy and hard clustering. The suitability of selected validity indices was applied on real and generated data sets with known optimal number of clusters a priory. These data sets have different sizes, different numbers of variables, and different numbers of clusters. The aim of the current work is regarded as fulfilled. A key contribution of this work was a new coefficient (E), which is appropriate for evaluating situations with both large and small numbers of clusters. Because the new validity index is based on the principles of both fuzzy clustering and hard clustering, it is able to correctly determine the optimal number of clusters on both small and large data sets. A second contribution of this research was a structured overview of existing validity indices and techniques for evaluating the fuzzy clustering results.Shluková analýza je vícerozměrná klasifikační statistická metoda zahrnující různé metody a postupy. Lze rozlišit pevné a fuzzy shlukování, kdy druhá varianta umožňuje přesnější výsledné rozdělení objektů do shluků. V reálném životě optimální počet těchto shluků není a prioriznám. A proto je zapotřebí tento optimální počet shluků zjistit, což umožnují koeficienty pro hodnocení výsledků shlukování. Těchto koeficientů však existuje velký počet. Jedním z cílů této disertační práce bylo vytvořit strukturovaný přehled existujících koeficientů a postupů určených pro hodnocení výsledků fuzzy shlukování v závislosti na optimálním počtu shluků. Hlavním cílem pak bylo navržení nového koeficientu pro hodnocení výsledků fuzzy shlukování, a to hlavně v případě velkého počtů shluků (více než pět). Nově navržený koeficient je založen na mírách příslušnosti a na vzdálenosti (euklidovská vzdálenost) mezi objekty, to znamená na principech fuzzy i pevného shlukování. Vhodnost použití vybraných koeficientů je zkoumána jednak na reálných, jednak na generovaných datových souborech, u kterých optimální počet shluků je známý. Použité datové soubory jsou různého rozsahu a obsahují různé počty proměnných a různé počty shluků. Cíle práce je možné považovat za splněné. Stěžejním přínosem této disertační práce je navržení nového koeficientu (E) pro hodnocení výsledků fuzzy shlukování, a to jak v případě souborů s malým, tak v případě souborů s velkým počtem shluků (více než pět). Díky tomu, že tento nový koeficient je založen na principech fuzzy i pevného shlukování, je schopen lépe než jiné koeficienty určit optimální počet shluků jak u malých, tak i u velkých datových souborů. Dalším přínosem práce je klasifikace již existujících koeficientů pro hodnocení výsledků fuzzy shlukování.
Klíčová slova:
fuzzy množiny; fuzzy shlukování; hodnocení výsledků shlukování; indexy pro ověřování počtů shluků; evaluating fuzzy clustering results; fuzzy clustering; fuzzy sets; validity indices
Instituce: Vysoká škola ekonomická v Praze
(web)
Informace o dostupnosti dokumentu:
Dostupné v digitálním repozitáři VŠE. Původní záznam: http://www.vse.cz/vskp/eid/52710