Název: Robust Regularized Cluster Analysis for High-Dimensional Data
Autoři: Kalina, Jan ; Vlčková, Katarína
Typ dokumentu: Příspěvky z konference
Konference/Akce: MME 2014. International Conference Mathematical Methods in Economics /32./, Olomouc (CZ), 2014-09-10 / 2014-09-12
Rok: 2014
Jazyk: eng
Abstrakt: This paper presents new approaches to the hierarchical agglomerative cluster analysis for high-dimensional data. First, we propose a regularized version of the hierarchical cluster analysis for categorical data with a large number of categories. It exploits a regularized version of various test statistics of homogeneity in contingency tables as the measure of distance between two clusters. Further, our aim is cluster analysis of continuous data with a large number of variables. Various regularization techniques tailor-made for high-dimensional data have been proposed, which have however turned out to suffer from a high sensitivity to the presence of outlying measurements in the data. As a robust solution, we recommend to combine two newly proposed methods, namely a regularized version of robust principal component analysis and a regularized Mahalanobis distance, which is based on an asymptotically optimal regularization of the covariance matrix. We bring arguments in favor of the newly proposed methods.
Klíčová slova: big data; cluster analysis; regularization; robust data mining
Číslo projektu: GA13-17187S (CEP), GA13-01930S (CEP)
Poskytovatel projektu: GA ČR, GA ČR
Zdrojový dokument: Proceedings of 32nd International Conference Mathematical Methods in Economics MME 2014, ISBN 978-80-244-4209-9

Instituce: Ústav informatiky AV ČR (web)
Informace o dostupnosti dokumentu: Dokument je dostupný v příslušném ústavu Akademie věd ČR.
Původní záznam: http://hdl.handle.net/11104/0236247

Trvalý odkaz NUŠL: http://www.nusl.cz/ntk/nusl-175211


Záznam je zařazen do těchto sbírek:
Věda a výzkum > AV ČR > Ústav informatiky
Konferenční materiály > Příspěvky z konference
 Záznam vytvořen dne 2014-09-18, naposledy upraven 2023-12-06.


Není přiložen dokument
  • Exportovat ve formátu DC, NUŠL, RIS
  • Sdílet