Original title:
Porovnání klasifikačních metod pro účely detekce maligních domén
Authors:
Polišenský, Jan ; Ryšavý, Ondřej (referee) ; Hranický, Radek (advisor) Document type: Master’s theses
Year:
2025
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Tato práce se zaměřuje na detekci škodlivých domén pomocí metod strojového učení a porovnává výkonnost různých klasifikátorů, včetně neuronových sítí, metody podůrných vektorů a stromových algoritmů. Hlavním přínosem je návrh vícestupňové klasifikační pi- peline s rozhodovacím metamodulem, která dosáhla skóre macro-F1 0,984; konkrétně skóre F1 0,985 pro phishing a 0,980 pro malware. Navržené řešení bylo úspěšně ověřeno na nezávislé testovací sadě a porovnáno s repli- kovanými přístupy z literatury. Ve všech sledovaných kategoriích dosahuje výrazně lepších výsledků než existující metody. Klíčovým faktorem úspěchu je využití rozsáhlého vektoru 176 příznaků kombinujících informace z více domén (TLS, DNS, RDAP, GeoIP a lexi- kální analýza), který umožňuje detailnější popis charakteristik domén. Přístup založený na kombinaci různých klasifikátorů dále přispívá k robustnosti a potvrzuje jeho vhodnost pro praktické nasazení v oblasti kybernetické bezpečnosti.
This thesis focuses on detecting malicious domains using machine learning methods and compares the performance of various classifiers, including neural networks, support vector machines, and tree-based algorithms. Its main contribution is the design of a multi-stage classification pipeline with a decision meta-model, which achieved an excellent macro-F1 score of 0.984; specifically, an F1 score of 0.985 for phishing and 0.980 for malware. The proposed solution was successfully validated on an independent test set and com- pared with replicated approaches from prior research. It significantly outperforms existing methods across all categories. A key factor in this success is the use of a rich 176-dimensional feature vector combining information from TLS, DNS, RDAP, GeoIP, and lexical analysis, allowing for a more precise characterization of domain behavior. The ensemble strategy based on combining multiple classifiers further enhances the robustness of the system and confirms its applicability for real-world cybersecurity deployment.
Keywords:
detection; machine learning; malicious domains; malware; neural networks; phishing; SVM; detekce; maligní domény; malware; neuronové sítě; phishing; strojové učení; SVM
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: https://hdl.handle.net/11012/254872