Original title:
Analýza chybějících hodnot: porovnání vhodnosti tradičních metod napříč mechanismy
Translated title:
Analysis of Missing Data: Comparing Performance of Traditional Methods across Mechanisms
Authors:
Petrúšek, Ivan ; Soukup, Petr (advisor) ; Hendl, Jan (referee) Document type: Master’s theses
Year:
2014
Language:
slo Abstract:
[eng][cze] The objective of this thesis is to evaluate different methods of dealing with missing values in data analysis. The thesis is divided into three major chapters. The first chapter summarizes the theoretical literature on missing data and focuses on missing data mechanisms in particular. The second chapter introduces traditional methods for addressing missing data in sociological research. The third chapter assesses the performance of these methods by analyzing simulated data sets for two variables (income, IQ). For practical analysis (chapter 3), we simulated missing data according to three different mechanisms (MCAR, MAR, NMAR) and varied the proportion of missing values under these mechanisms (10%, 20%, 30%). Then, we applied each of the following four methods of addressing missing values: complete-case analysis, arithmetic mean imputation, regression imputation, and stochastic regression imputation. In order to evaluate the performance of each of these methods we performed correlation and regression analyses for each experimental condition. The results of these simulations are largely in agreement with existing theoretical literature on the subject of missing data. In the case of NMAR, all solution methods provided biased parameter estimates. In the case of MCAR, only complete-case analysis and...Cieľom tejto diplomovej práce je vyhodnotiť rozličné metódy práce s chýbajúcimi hodnotami pri analýze dát. Diplomová práca je rozdelená do troch hlavných kapitol. Prvá kapitola zhŕňa teoretickú literatúru o chýbajúcich hodnotách a zameriava sa primárne na mechanizmy chýbajúcich hodnôt. Druhá kapitola pojednáva o tradičných metódach práce s chýbajúcimi hodnotami používanými v sociologickom výskume. Tretia kapitola skúma úspešnosť týchto metód analyzovaním simulovaných dátových súborov pozostávajúcich z dvoch premenných (príjem, IQ). V rámci praktickej analýzy (tretia kapitola) sme prostredníctvom simulácie vytvorili chýbajúce hodnoty podľa troch mechanizmov (MCAR, MAR, NMAR) a variovali podiel chýbajúcich hodnôt pri týchto mechanizmoch (10%, 20%, 30%). Potom sme aplikovali štyri metódy práce s chýbajúcimi hodnotami: analýzu kompletných prípadov, nahrádzanie aritmetickým priemerom, nahrádzanie regresiou a nahrádzanie stochastickou regresiou. Účinnosť týchto metód bola pre každú experimentálnu podmienku skúmaná pri korelačnej a regresnej analýze. Výsledky realizovaných simulácií sú zväčša v súlade s existujúcou literatúrou venovanou problematike chýbajúcich hodnôt. V prípade mechanizmu NMAR viedli všetky skúmané metódy k vychýleným odhadom parametrov. V prípade mechanizmu MCAR viedla k nevychýleným...
Keywords:
bias; deletion methods; imputation methods,simulations; missing data; missing data mechanisms; statistical inference; chýbajúce hodnoty; mechanizmy chýbajúcich hodnôt; metódy nahrádzania,simulácie,vychýlenie; metódy založené na vynechávaní prípadov; štatistické usudzovanie
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/72183