Original title:
SVM klasifikátory a heuristiky pro selekci příznaků
Translated title:
SVM classifiers and heuristics for feature selection
Authors:
Krupka, Tomáš ; Holub, Martin (advisor) ; Kopa, Miloš (referee) Document type: Bachelor's theses
Year:
2016
Language:
eng Abstract:
[eng][cze] In machine learning applications with a large number of computer-generated features, a selection of just a subset of features is often desirable. The Recursive Feature Elimination (SVM-RFE) algorithm proposed by Guyon et al. (2002) employs the mechanism of selecting the features based on their contribution to an SVM model decision rule, and has proven a state-of-the-art performance on the Gene Selection for Cancer Classification task (Tan et al. (2010)). This thesis expands on that work, and proposes a novel modification of the SVM-RFE feature selection method called Evaluation-Based RFE (EB-RFE). This heuristic significantly improves the performance of the SVM classifier in comparison to the original SVM-RFE on the studied machine learning task. In addition to the performance gain, the proposed algorithm has also, in experimental use, proven to have two other desirable properties. Firstly, EB-RFE produces much smaller feature subsets than SVM-RFE, which leads to more compact models. Secondly, unlike SVM-RFE, the EB-RFE heuristic is easily scalable with the computational time well beyond the possibilities of current high-end consumer CPUs. Powered by TCPDF (www.tcpdf.org)V aplikacích strojového učení s velkým množstvím počítačem vytvářených příznaků je často zapotřebí užít pouze jejich malou podmnožinu. Algoritmus "Recursive Feature Elimination" (SVM-RFE) publikovaný v práci Guyon et al. (2002), který vybírá příznaky na základě jejich váhy v SVM modelu, prokázal na úloze výběru genů pro klasifikaci leukemie do té doby nepřekonanou výkonnost (Tan et al. (2010)). Tato práce rozvíjí tuto metodu a předkládá novou modifikaci algoritmu SVM-RFE nazvanou Evaluation-Based RFE (EB-RFE). Ve srovnání s původním algoritmem SVM-RFE tato heuristika významně zvedá výkonnost výsledného SVM klasifikátoru na studované úloze strojového učení. Experimenty navíc ukazují, že tato nová heuristika má další dvě žádoucí vlastnosti. Za prvé, EB-RFE generuje výrazně menší podmnožíny příznaků, čímž umožňuje trénovat kompaktnější modely. Za druhé, heuristika EB-RFE je narozdíl od originálního algoritmu SVM-RFE jednoduše škálovatelná v závislosti na výpočetním čase, a to výrazně nad možnosti současných nejvýkonnějších běžných počítačů. Powered by TCPDF (www.tcpdf.org)
Keywords:
Feature Selection; Machine Learning; Recursive Feature Elimination; SVM; Recursive Feature Elimination; Strojové Učení; SVM; Výběr Příznaků
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/84562