Název:
Strategie Předzpracování Dat v Klasifikaci s Nevyváženým Poměrem Tříd
Překlad názvu:
Data Preprocessing Strategies in Imbalanced Data Classification
Autoři:
Haluška, Radovan ; Skopal, Tomáš (vedoucí práce) ; Svoboda, Martin (oponent) Typ dokumentu: Bakalářské práce
Rok:
2022
Jazyk:
eng
Abstrakt: [eng][cze] Learning from imbalanced data has been a research topic studied for many years. There are two main approaches used today - data-level and algorithm- level methods. We set out to study resampling methods which belong to the category of data-level methods. These methods modify the training part of a dataset as opposed to algorithm-level methods, which modify a classifier itself. Resampling methods are further divided into oversampling and un- dersampling methods. It is challenging to know which group of methods performs better and which algorithms stand out the most. We conducted an experiment of unseen scale. We systematically and robustly compared sixteen preprocessing methods over eighteen imbalanced datasets and sum- marised the results in this thesis. The results show that oversampling meth- ods outperformed most undersampling methods in both performance and preprocessing time. 1Učenie sa z dát s nevyváženým pomerom tried je témou výskumu, ktorá sa skúma už mnoho rokov. V súčasnosti sa používajú dva hlavné prístupy - metódy na úrovni dát a metódy na úrovni algoritmov. Rozhodli sme sa študovať metódy vzorkovania, ktoré patria do kategórie metód na úrovni dát. Tieto metódy modifikujú trénovaciu časť dát, na rozdiel od metód na úrovni algoritmov, ktoré modifikujú samotný klasifikátor. Metódy vzorkovania sa ďalej delia na metódy prevzorkovani a podvzorkovania. Je náročné vedieť, ktorá skupina metód funguje lepšie a ktoré algoritmy vynikajú najviac. Usku- točnili sme preto experiment nevídaného rozsahu. Systematicky a robustne sme porovnali šestnásť metód prevzorkovania nad osemnástimi datasetmi s nevyváženým pomerom tried a zhrnuli sme výsledky v tejto práci. Výsledky ukazujú, že metódy prevzorkovania prekonali väčšinu metód podvzorkovania z hľadiska výkonu aj času predspracovania. 1
Klíčová slova:
umelá inteligencia|strojové učenie|klasifikácia s nevyvážením pomerom tried; artificial intelligence|machine learning|imbalanced classification