Název:
Regularizace a výběr proměnných v regresních modelech
Překlad názvu:
Regularization and variable selection in regression models
Autoři:
Lahodová, Kateřina ; Komárek, Arnošt (vedoucí práce) ; Maciak, Matúš (oponent) Typ dokumentu: Diplomové práce
Rok:
2017
Jazyk:
cze
Abstrakt: [cze][eng] Tato diplomová práce se zaměřuje na regularizaci a výběr proměnných v re- gresních modelech. Popsány jsou základní pojmy týkající se penalizované věrohod- nosti, zobecněných lineárních modelů a jejich hodnocení a porovnávání na základě predikčních schopností a schopnosti výběru proměnných. Dále jsou krátce před- staveny metody LASSO a LARS pro výběr proměnných v normálním lineárním modelu. Hlavním tématem práce je metoda zvaná Boosting. V práci je uveden zá- kladní princip této metody a algoritmus, který popisuje Boosting jako pokles podle gradientu v prostoru funkcí. Dále se v práci zabýváme volbou bazické procedury, konkrétně metodou nejmenších čtverců aplikované po složkách. Následně jsou před- staveny dvě aplikace obecného algoritmu Boostingu a odvozeny jejich konkrétní vlastnosti. Jedná se o AdaBoost pro náhodný výběr s podmíněným alternativním rozdělením a L2Boosting pro výběr s podmíněným normálním rozdělením. Na závěr byla provedena simulační studie porovnávající metody LASSO, LARS a L2Boosting. Ukazuje se, že pro výběr proměnných se nejvíce hodí metody LASSO a LARS. Me- toda L2Boosting je spíše vhodnější k predikování nových dat.This diploma thesis focuses on regularization and variable selection in regres- sion models. Basics of penalised likelihood, generalized linear models and their evaluation and comparison based on prediction quality and variable selection are described. Methods called LASSO and LARS for variable selection in normal linear regression are briefly introduced. The main topic of this thesis is method called Boosting. General Boosting algorithm is introduced including functional gradient descent, followed by selection of base procedure, especially the componentwise linear least squares method. Two specific application of general Boosting algorithm are introduced with derivation of some important characteristics. These methods are AdaBoost for data with conditional binomial distribution and L2Boosting for condi- tional normal distribution. As a final point a simulation study comparing LASSO, LARS and L2Boosting methods was conducted. It is shown that methods LASSO and LARS are more suitable for variable selection whereas L2Boosting is more fitting for new data prediction.
Klíčová slova:
AdaBoost; L2Boosting; obecný princip Boostingu; výběr proměnných v regresních modelech; AdaBoost; general Boosting algorithm; L2Boosting; variable selection in regression models