Original title:
Hierarchické shlukování s Mahalanobis-average metrikou akcelerované na GPU
Translated title:
GPU-accelerated Mahalanobis-average hierarchical clustering
Authors:
Šmelko, Adam ; Kratochvíl, Miroslav (advisor) ; Hric, Jan (referee) Document type: Master’s theses
Year:
2020
Language:
eng Abstract:
[eng][cze] Hierarchical clustering algorithms are common tools for simplifying, exploring and analyzing datasets in many areas of research. For flow cytometry, a specific variant of agglomerative clustering has been proposed, that uses cluster linkage based on Mahalanobis distance to produce results better suited for the domain. Applicability of this clustering algorithm is currently limited by its relatively high computational complexity, which does not allow it to scale to common cytometry datasets. This thesis describes a specialized, GPU-accelerated version of the Mahalanobis-average linked hierarchical clustering, which improves the algorithm performance by several orders of magnitude, thus allowing it to scale to much larger datasets. The thesis provides an overview of current hierarchical clustering algorithms, and details the construction of the variant used on GPU. The result is benchmarked on publicly available high-dimensional data from mass cytometry.Hierarchické klastrovacie algoritmy sú bežnými nástromi na zjednodušenie, skúmanie a analýzu datasetov v mnohých oblastiach výskumu. Pre prietokovú cytometriu bol navrhnutý špecifický variant aglomeračného zhlukovania, ktorý využíva klastrovanie založené na Mahalanobisovskej vzdialenosti, aby sa dosiahli výsledky, ktoré sa pre danú doménu lepšie hodia. Uplatniteľnosť tohto klastrovacieho algoritmu je v súčasnosti obmedzená jeho pomerne vysokou výpočtovou náročnosťou, ktorá mu neumožňuje škálovať bežné cytometrické datasety. Táto práca popisuje špecializovanú, na GPU- zrýchlenú verziu hierarchického klastrovania založeného na Mahalanobisovskej vzdialenosti, ktorá zlepšuje výkon algoritmu o niekoľko rádov, čo mu umožňuje počítať oveľa väčšie datasety. Práca poskytuje prehľad súčasných hierarchických klastrovacích algoritmov a podrobne popisuje implementáciu algoritmu na GPU. Výsledok sa porovnáva s verejne dostupnými vysokorozmernými údajmi z hmotnostnej cytometrie.
Keywords:
clustering; GPU; high-dimensional data; GPU; shlukování; vysokodimenzionální data
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/119191