Název:
Optimalizace klasifikačních modelů pro detekci maligních domén
Překlad názvu:
Optimization of Classification Models for Malicious Domain Detection
Autoři:
Pouč, Petr ; Jeřábek, Kamil (oponent) ; Hranický, Radek (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2024
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [eng][cze]
Tato diplomová práce se zaměřuje na rozvoj pokročilých metod pro detekci škodlivých doménových jmen s využitím optimalizačních technik v oblasti strojového učení. Práce zkoumá a hodnotí účinnost různých optimalizačních strategií pro klasifikaci. Jako nástroje pro hodnocení jsem vybral klasifikační algoritmy, které se liší v jejich přístupu, včetně hlubokého učení, techniky rozhodovacích stromů, nebo hledání hyperrovin. Tyto metody byly posouzeny na základě schopnosti efektivně klasifikovat doménová jména v závislosti na použitých optimalizačních technikách. Optimalizace zahrnovala vytvoření přesně označených datových sad, aplikaci technik zpracování dat, pokročilou selekci atributů, řešení nerovnováhy tříd a ladění hyperparametrů. Experimentální část práce prokazuje vynikající úspěšnost kombinováním jednotlivých metod. Přičemž nejlepší modely CNN dosahovaly až 0.9926 F1 při současném snížení FPR na hodnotu 0.300%. Přínos práce spočívá v poskytnutí konkrétních metod a strategií pro efektivní detekci škodlivých doménových jmen v oblasti kybernetické bezpečnosti.
This thesis focuses on the development of advanced methods for malicious domain name detection using optimization techniques in machine learning. The thesis investigates and evaluates the effectiveness of different optimization strategies for classification. As evaluation tools, I selected classification algorithms that differ in their approach, including deep learning, decision tree techniques, or hyperplane search. These methods are investigated in terms of their ability to effectively classify domain names depending on the implemented optimization techniques. Optimization strategies include the creation of ground-truth datasets, application of data processing methods, advanced feature selection, solving the class imbalance problem, and hyperparameter tuning. The final part of the paper presents a detailed analysis of the benefits of each optimization approach. The experimental part of the study demonstrates exceptional results by combining several methodologies. The top CNN models obtained up to 0.9926 F1 while lowering FPR to 0.3%. The contribution of this study is to provide specific methodologies and tactics for the successful identification of malicious domain names in the cybersecurity area.
Klíčová slova:
Classification; Cybersecurity; Data processing; Domain verification; Feature Engineering; FETA Project; Ground-truth; Hyperparameter Tuning; Imbalance handling; Machine Learning; Malware; Optimization; Phishing; Virus Total; Extrakce příznaků; Ground-truth; Klasifikace; Kybernetická bezpečnost; Ladění hyperparametrů; Malware; Nerovnováha tříd; Optimalizace; Phishing; Projekt FETA; Strojové učení; Verifikace domén; Virus Total; Zpracování dat
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: https://hdl.handle.net/11012/248995