Název:
Detekce škodlivých webových stránek pomocí strojového učení
Překlad názvu:
Detection of Malicious Websites using Machine Learning
Autoři:
Šulák, Ladislav ; Černocký, Jan (oponent) ; Beneš, Karel (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2018
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [eng][cze]
Táto práca sa zaoberá problematikou škodlivého kódu na webe so zameraním na analýzu a detekciu škodlivého JavaScriptu umiestneného na strane klienta s využitím strojového učenia. Navrhnutý prístup využíva známe i nové pozorovania s ohľadom na rozdiely medzi škodlivými a legitímnymi vzorkami. Tento prístup má potenciál detekovať nové exploity i zero-day útoky. Systém pre takúto detekciu bol implementovaný a využíva modely strojového učenia. Výkon modelov bol evaluovaný pomocou F1-skóre na základe niekoľkých experimentov. Použitie rozhodovacích stromov sa podľa experimentov ukázalo ako najefektívnejšia možnosť. Najefektívnejším modelom sa ukázal byť Adaboost klasifikátor s dosiahnutým F1-skóre až 99.16 %. Tento model pracoval s 200 inštanciami randomizovaného rozhodovacieho stromu založeného na algoritme Extra-Trees. Viacvrstvový perceptrón bol druhým najlepším modelom s dosiahnutým F1-skóre 97.94 %.
This thesis deals with the problem of web-based malware focusing on the analysis and detection of malicious JavaScript placed on the client side using machine learning techniques.Proposed approach benefits from both known and new observations regarding differencesbetween malicious and benign samples. Such approach has a potential to detect brand newexploits and zero-day attacks. System for such detection has been implemented using multiple machine learning models. Performance of the models has been evaluated with F1-scoreby executing multiple experiments. According to the experiments, the application of decision tree classifiers was the most effective option. The most effective model was Adaboostclassifier which reached F1-score up to 99.16 %. This model worked with 200 instances ofrandomized decision tree based on Extra-Trees algorithm. Multi-layer Perceptron was thesecond-best model with achieved F1-score up to 97.94 %.
Klíčová slova:
deep learning; drive-by-download; machine learning; malicious JavaScript; malicious URL detection; malware; static analysis; web-based threats; detekcia škodlivých URL; drive-by-download; hlboké učenie; statická analýya; strojové učenie; webové hrozby; škodlivý JavaScript; škodlivý software
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/84973