Název:
Porovnání klasifikačních metod pro účely detekce maligních domén
Autoři:
Polišenský, Jan ; Ryšavý, Ondřej (oponent) ; Hranický, Radek (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2025
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Tato práce se zaměřuje na detekci škodlivých domén pomocí metod strojového učení a porovnává výkonnost různých klasifikátorů, včetně neuronových sítí, metody podůrných vektorů a stromových algoritmů. Hlavním přínosem je návrh vícestupňové klasifikační pi- peline s rozhodovacím metamodulem, která dosáhla skóre macro-F1 0,984; konkrétně skóre F1 0,985 pro phishing a 0,980 pro malware. Navržené řešení bylo úspěšně ověřeno na nezávislé testovací sadě a porovnáno s repli- kovanými přístupy z literatury. Ve všech sledovaných kategoriích dosahuje výrazně lepších výsledků než existující metody. Klíčovým faktorem úspěchu je využití rozsáhlého vektoru 176 příznaků kombinujících informace z více domén (TLS, DNS, RDAP, GeoIP a lexi- kální analýza), který umožňuje detailnější popis charakteristik domén. Přístup založený na kombinaci různých klasifikátorů dále přispívá k robustnosti a potvrzuje jeho vhodnost pro praktické nasazení v oblasti kybernetické bezpečnosti.
This thesis focuses on detecting malicious domains using machine learning methods and compares the performance of various classifiers, including neural networks, support vector machines, and tree-based algorithms. Its main contribution is the design of a multi-stage classification pipeline with a decision meta-model, which achieved an excellent macro-F1 score of 0.984; specifically, an F1 score of 0.985 for phishing and 0.980 for malware. The proposed solution was successfully validated on an independent test set and com- pared with replicated approaches from prior research. It significantly outperforms existing methods across all categories. A key factor in this success is the use of a rich 176-dimensional feature vector combining information from TLS, DNS, RDAP, GeoIP, and lexical analysis, allowing for a more precise characterization of domain behavior. The ensemble strategy based on combining multiple classifiers further enhances the robustness of the system and confirms its applicability for real-world cybersecurity deployment.
Klíčová slova:
detekce; maligní domény; malware; neuronové sítě; phishing; strojové učení; SVM; detection; machine learning; malicious domains; malware; neural networks; phishing; SVM
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: https://hdl.handle.net/11012/254872