Název:
Diskretizace numerických proměnných v modelech kreditního rizika
Překlad názvu:
Binning numerical variables in credit risk models
Autoři:
Mattanelli, Matyáš ; Baruník, Jozef (vedoucí práce) ; Teplý, Petr (oponent) Typ dokumentu: Diplomové práce
Rok:
2023
Jazyk:
eng
Abstrakt: [eng][cze] This thesis investigates the effect of binning numerical variables on the per- formance of credit risk models. The differences are evaluated utilizing five publicly available data sets, six evaluation metrics, and a rigorous statistical test. The results suggest that the binning transformation has a positive and significant effect on the performance of logistic regression, feedforward artifi- cial neural network, and the Naïve Bayes classifier. The most affected aspect of model performance appears to be its ability to differentiate between eligible and ineligible customers. The obtained evidence is particularly pronounced for moderately-sized data sets. In addition, the findings are robust to the inclusion of missing values, the elimination of outliers, and the exclusion of categorical features. No significant positive effect of the binning transformation was found for the decision tree algorithm and the Random Forest model.Tato práce zkoumá vliv diskretizace numerických proměnných na výkonnost modelů kreditního rizika. Rozdíly ve výkonnosti jsou vyhodnoceny s využitím pěti veřejně dostupných datových souborů, šesti indikátorů výkonnosti a stati- stického testu. Výsledky naznačují, že diskretizace má pozitivní a významný vliv na výkonnost logistické regrese, neuronové sítě a naivního Bayes klasi- fikátoru. Nejvíce ovlivněným aspektem výkonnosti modelu se zdá být jeho schopnost rozlišovat mezi dobrými a špatnými klienty. Výsledky jsou zvláště patrné pro středně velké datové soubory. Závěry jsou odolné vůči chybějícím hodnotám, eliminaci extrémních pozorování a vyloučení kategorických proměn- ných. Pro rozhodovací strom a náhodný les nebyl nalezen žádný významný pozitivní účinek diskretizace na výkonnost.
Klíčová slova:
diskretizace; Kreditní riziko; strojové učení; výkonnost; binning; Credit risk; machine learning; performance