Original title:
Optimalizace heuristické analýzy spustitelných souborů
Translated title:
Optimization of Heuristic Analysis of Executable Files
Authors:
Wiglasz, Michal ; Křoustek, Jakub (referee) ; Hruška, Tomáš (advisor) Document type: Bachelor's theses
Year:
2012
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Tato bakalářská práce byla vypracována v průběhu studijního pobytu na Universita della Svizzera italiana ve Švýcarsku. Tato práce popisuje implementaci klasifikačního nástroje pro detekci neznámého škodlivého softwaru, které by mohla nahradit současné řešení, založené na ručně určených vahách. Databáze použitá pro učení a testování byla poskytnuta antivirovou a bezpečnostní společností AVG Technologies. Pět různých klasifikátorů bylo srovnáno za účelem nalezení nejvhodnější metody k implementaci: naivní bayesovský klasifikátor, rozhodovací stromy, algoritmus RandomForrest, neuronové sítě a support vector machine. Po několika experimentech byl vybrán naivní bayesovský klasifikátor. Implementovaná aplikace pokrývá všechny potřebné funkce: extrakci atributů, učení klasifikátoru a odhad jeho úspěšnosti a klasifikaci neznámých vzorků. Protože společnost AVG je ochotna tolerovat maximálně 1% falešně pozitivních klasifikací, úspěšnost implementovaného klasifikátoru je pouze 61,7 %, což je o méně než 1 % lepší než u současného řešení. Na druhou stranu, učící proces je plně automatizovaný a umožňuje rychlé přeučení (v průměru během 12 sekund pro 90 tisíc trénovacích vzorků.)
This BSc Thesis was performed during a study stay at the Universita della Svizzera italiana, Swiss. This thesis describes the implementation of a classification tool for detection of unknown malware based on their behaviour which could replace current solution, based on manually chosen attributes'scores and a threshold. The database used for training and testing was provided by AVG Technologies company, which specializes in antivirus and security systems. Five different classifiers were compared in order to find the best one for implementation: Naive Bayes, a decision tree, RandomForrest, a neural net and a support vector machine. After series of experiments, the Naive Bayes classifier was selected. The implemented application covers all necessary steps: attribute extraction, training, estimation of the performance and classification of unknown samples. Because the company is willing to tolerate false positive rate of only 1% or less, the accuracy of the implemented classifier is only 61.7%, which is less than 1% better than the currently used approach. However it provides automation of the learning process and allows quick re-training (in average around 12 seconds for 90 thousand training samples).
Keywords:
anti-virus; Classification; data mining; machine learning; malicious software; Naive Bayes; Python.; antivirus; dolování z dat; Klasifikace; naivní Bayes; Python.; strojové učení; škodlivý software
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/55297