Název:
Modelově založené shlukování vícerozměrných longitudinálních dat smíšeného typu
Překlad názvu:
Model-based Clustering of Multivariate Longitudinal Data of a Mixed Type
Autoři:
Vávra, Jan ; Komárek, Arnošt (vedoucí práce) Typ dokumentu: Rigorózní práce
Rok:
2023
Jazyk:
eng
Abstrakt: [eng][cze] Model-based Clustering of Multivariate Longitudinal Data of a Mixed Type Jan Vávra October 3, 2022 Abstract In many nowadays studies, the data are collected repeatedly on the same units over a certain period of time. Moreover, such longitudinal data are composed of numeric values, count variables, binary indicators, ordered or nominal categories. A few variants of statistical model capa- ble of modelling such often highly correlated data jointly are introduced. On top of that, a methodology of model-based clustering is adapted to such models to discover hidden heterogeneity within the data by dividing units into clusters of specific characteristics. Bayesian approach is taken, generative model is proposed and MCMC methodology is developed for estimation. A simulation study verifying the estimation properties is con- ducted. The methodology is applied to real datasets such as medical data on patients suffering from primary biliary cholangitis (PBC) or econom- ical dataset consisting of thousands of Czech households followed since 2005 (EU-SILC database). 1Modelově založené shlukování vícerozměrných longitudinálních dat smíšeného typu Jan Vávra 3. října 2022 Abstrakt Mnoho dnešních studií sbírá data opakovaně na těch samých jedin- cích po předem vymezenou časovou dobu. Takto vzniklá longitudinální data jsou navíc často tvořena číselnými, čítacími, binárními, ordinálními nebo obecně kategoriálními hodnotami. Je zde navrženo několik variant statistických modelů schopných modelovat takováto často velmi korelo- vaná data sdruženě. Metodologie modelově založeného shlukování je zde použita pro odhalení skryté heterogenity v datech tím, že jedince roztřídí do několika skupin specifických vlastností. Generativní model je zde vy- tvořen za bayesovského přístupu a jsou zde vyvinuty MCMC metody pro jeho odhad. Vlastnosti stvořených odhadů jsou podrobeny simulační stu- dii. Vyvinutá metodologie je aplikovaná na problémy z reálného prostředí, např. data z lékařské studie o pacientech trpících primární biliární cho- langitidou (PBC) či ekonomický dataset o tisících českých domácnostech sledovaných od roku 2005 (databáze EU-SILC). 1
Klíčová slova:
modelově založené shlukování|MCMC|longitudinální data|GLMM|smíšený typ; model-based clustering|MCMC|longitudinal data|GLMM|mixed type