Název:
Výběr modelu na základě penalizované věrohodnosti
Překlad názvu:
Variable selection based on penalized likelihood
Autoři:
Chlubnová, Tereza ; Kulich, Michal (vedoucí práce) ; Maciak, Matúš (oponent) Typ dokumentu: Diplomové práce
Rok:
2016
Jazyk:
cze
Abstrakt: [cze][eng] Často zmiňovaným tématem moderní statistiky je výběr proměnných a odhad regresních koeficientů v datech, kde počet proměnných výrazně převyšuje počet pozorování. V současnosti se na řešení tohoto problému používá penalizace maximální věrohodnosti pomocí vhodně zvolené funkce parametru. Dobrá penalizační funkce by měla ohodnotit přínos proměnné a případně zmenšit či vynulovat příslušný regresní koeficient. Pro svou schop- nost vybrat vhodné regresory a zároveň odhadnout parametry v modelu jsou oblíbené penalizační funkce SCAD a LASSO. Práce přináší přehled dosa- vadních výsledků v oblasti vlastností odhadů získaných pomocí těchto dvou funkcí pro malý počet regresorů i pro mnohorozměrná data v normálním lineárním modelu. Jelikož míru penalizace a tedy i výběr správného modelu silně ovlivňuje ladící parametr, zaměříme se také na jeho volbu. Chování LASSO a SCAD penalizací pro různé hodnoty i způsoby volby ladícího pa- rametru ověříme pro různý počet regresorů na nasimulovaných datech.Selection of variables and estimation of regression coefficients in datasets with the number of variables exceeding the number of observations consti- tutes an often discussed topic in modern statistics. Today the maximum penalized likelihood method with an appropriately selected function of the parameter as the penalty is used for solving this problem. The penalty should evaluate the benefit of the variable and possibly mitigate or nullify the re- spective regression coefficient. The SCAD and LASSO penalty functions are popular for their ability to choose appropriate regressors and at the same time estimate the parameters in a model. This thesis presents an overview of up to date results in the area of characteristics of estimates obtained by using these two methods for both small number of regressors and multidimensional datasets in a normal linear model. Due to the fact that the amount of pe- nalty and therefore also the choice of the model is heavily influenced by the tuning parameter, this thesis further discusses its selection. The behavior of the LASSO and SCAD penalty functions for different values and possibili- ties for selection of the tuning parameter is tested with various numbers of regressors on simulated datasets.
Klíčová slova:
ladící parametr; LASSO; penalizované nejmenší čtverce; SCAD; LASSO; penalized least squares; SCAD; tuning parameter