Název:
Statistické modely pro predikci časové náročnosti projektů
Překlad názvu:
Statistical models for prediction of project duration
Autoři:
Oberta, Dušan ; Žák, Libor (oponent) ; Hübnerová, Zuzana (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2023
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta strojního inženýrství
Abstrakt: [eng][cze]
Cieľom tejto bakalárskej práce je odvodiť štatistické modely vhodné pre analýzu dát a aplikovať ich na analýzu reálnych dát týkajúcich sa časovej náročnosti projektov v závislosti na charakteristikách projektov. V úvodnej kapitole sú študované lineárne regresné modely založené na metóde najmenších štvorcov, vrátane ich vlastností a predikčných intervalov. Nasleduje kapitola zaoberajúca sa problematikou zobecnených lineárnych modelov založených na metóde maximálnej vierohodnosti, ich vlastností a zostavením asymptotických konfidenčných intervalov pre stredné hodnoty. Ďalšia kapitola sa zaoberá problematikou regresných stromov, kde sú znova ukázané metóda najmenších štvrocov a metóda maximálnej vierohodnosti. Boli ukázané základné princípy orezávania regresných stromov a odvodenie konfidenčných intervalov pre stredné hodnoty. Metóda maximálnej vierohodnosti pre regresné stromy a odvodenie konfidenčných intervalov boli z podstatnej časti vlastným odvodením autora. Posledným študovaným modelom sú náhodné lesy, vrátane ich základných vlastností a konfidenčných intervalov pre stredné hodnoty. V týchto kapitolách boli taktiež ukázané metódy posúdenia kvality modelu, výberu optimálneho podmodelu, poprípade určenia optimálnych hodnôt rôznych parametrov. Na záver sú dané modely a algoritmy implementované v jazyku Python a aplikované na reálne dáta.
The aim of this thesis is to introduce statistical models suitable for data analysis and apply them on real data related to time duration of projects based on characteristics of given projects. In the first chapter, linear regression models based on the least squares method are studied, including their properties and prediction intervals. The next chapter deals with the problematics of generalized linear models, which are based on the maximum likelihood estimation principle. Also basic properties of generalized linear models and asymptotic confidence intervals for expected values are described. In the next chapter, regression trees are introduced, with two methods of growing the trees, namely least squares and maximum likelihood estimation. Also basic principles of pruning the trees and confidence intervals for expected values were described. Derivation of maximum likelihood estimation for regression trees and confidence intervals are to a great extent own work of the author. The last described models are random forests, including their basic properties and confidence intervals for expected values. Throughout these chapters, methods for assessing model's quality, selection of optimal submodel and finding optimal values for tuning parameters were also described. At the end, the studied models and algorithms are implemented in Python and applied on real data.
Klíčová slova:
bagging; bootstrapping; confidence intervals; generalized linear models; k-fold cross validation; least squares; linear regression; maximum likelihood estimation; prediction intervals; random forests; regression trees; bagging; bootstrapping; k-násobná krížová validácia; konfidenčné intervaly; lineárna regresia; metóda maximálnej vierohodnosti; metóda najmenších štvorcov; náhodné lesy; predikčné intervaly; regresné stromy; zobecnené lineárne modely
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/211798