Original title:
Detekce škodlivých webových stránek pomocí strojového učení
Translated title:
Detection of Malicious Websites using Machine Learning
Authors:
Šulák, Ladislav ; Černocký, Jan (referee) ; Beneš, Karel (advisor) Document type: Master’s theses
Year:
2018
Language:
eng Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[eng][cze]
Táto práca sa zaoberá problematikou škodlivého kódu na webe so zameraním na analýzu a detekciu škodlivého JavaScriptu umiestneného na strane klienta s využitím strojového učenia. Navrhnutý prístup využíva známe i nové pozorovania s ohľadom na rozdiely medzi škodlivými a legitímnymi vzorkami. Tento prístup má potenciál detekovať nové exploity i zero-day útoky. Systém pre takúto detekciu bol implementovaný a využíva modely strojového učenia. Výkon modelov bol evaluovaný pomocou F1-skóre na základe niekoľkých experimentov. Použitie rozhodovacích stromov sa podľa experimentov ukázalo ako najefektívnejšia možnosť. Najefektívnejším modelom sa ukázal byť Adaboost klasifikátor s dosiahnutým F1-skóre až 99.16 %. Tento model pracoval s 200 inštanciami randomizovaného rozhodovacieho stromu založeného na algoritme Extra-Trees. Viacvrstvový perceptrón bol druhým najlepším modelom s dosiahnutým F1-skóre 97.94 %.
This thesis deals with the problem of web-based malware focusing on the analysis and detection of malicious JavaScript placed on the client side using machine learning techniques.Proposed approach benefits from both known and new observations regarding differencesbetween malicious and benign samples. Such approach has a potential to detect brand newexploits and zero-day attacks. System for such detection has been implemented using multiple machine learning models. Performance of the models has been evaluated with F1-scoreby executing multiple experiments. According to the experiments, the application of decision tree classifiers was the most effective option. The most effective model was Adaboostclassifier which reached F1-score up to 99.16 %. This model worked with 200 instances ofrandomized decision tree based on Extra-Trees algorithm. Multi-layer Perceptron was thesecond-best model with achieved F1-score up to 97.94 %.
Keywords:
detekcia škodlivých URL; drive-by-download; hlboké učenie; statická analýya; strojové učenie; webové hrozby; škodlivý JavaScript; škodlivý software; deep learning; drive-by-download; machine learning; malicious JavaScript; malicious URL detection; malware; static analysis; web-based threats
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/84973