Original title:
Strategie Předzpracování Dat v Klasifikaci s Nevyváženým Poměrem Tříd
Translated title:
Data Preprocessing Strategies in Imbalanced Data Classification
Authors:
Haluška, Radovan ; Skopal, Tomáš (advisor) ; Svoboda, Martin (referee) Document type: Bachelor's theses
Year:
2022
Language:
eng Abstract:
[eng][cze] Learning from imbalanced data has been a research topic studied for many years. There are two main approaches used today - data-level and algorithm- level methods. We set out to study resampling methods which belong to the category of data-level methods. These methods modify the training part of a dataset as opposed to algorithm-level methods, which modify a classifier itself. Resampling methods are further divided into oversampling and un- dersampling methods. It is challenging to know which group of methods performs better and which algorithms stand out the most. We conducted an experiment of unseen scale. We systematically and robustly compared sixteen preprocessing methods over eighteen imbalanced datasets and sum- marised the results in this thesis. The results show that oversampling meth- ods outperformed most undersampling methods in both performance and preprocessing time. 1Učenie sa z dát s nevyváženým pomerom tried je témou výskumu, ktorá sa skúma už mnoho rokov. V súčasnosti sa používajú dva hlavné prístupy - metódy na úrovni dát a metódy na úrovni algoritmov. Rozhodli sme sa študovať metódy vzorkovania, ktoré patria do kategórie metód na úrovni dát. Tieto metódy modifikujú trénovaciu časť dát, na rozdiel od metód na úrovni algoritmov, ktoré modifikujú samotný klasifikátor. Metódy vzorkovania sa ďalej delia na metódy prevzorkovani a podvzorkovania. Je náročné vedieť, ktorá skupina metód funguje lepšie a ktoré algoritmy vynikajú najviac. Usku- točnili sme preto experiment nevídaného rozsahu. Systematicky a robustne sme porovnali šestnásť metód prevzorkovania nad osemnástimi datasetmi s nevyváženým pomerom tried a zhrnuli sme výsledky v tejto práci. Výsledky ukazujú, že metódy prevzorkovania prekonali väčšinu metód podvzorkovania z hľadiska výkonu aj času predspracovania. 1
Keywords:
artificial intelligence|machine learning|imbalanced classification; umelá inteligencia|strojové učenie|klasifikácia s nevyvážením pomerom tried
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/174145