Název:
Datové sady pro síťovou bezpečnost
Překlad názvu:
Data Sets for Network Security
Autoři:
Setinský, Jiří ; Hranický, Radek (oponent) ; Tisovčík, Peter (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2023
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
V oblasti síťové bezpečnosti se používají techniky strojového učení pro efektivní detekci anomálií a malwaru v síťovém provozu. Pro natrénování síťového klasifikátoru s vysokou úspěšností je potřeba kvalitní datová sada. Cílem práce je modifikace datové sady pomocí metod strojového učení za účelem zlepšení kvality datové sady, která povede na natrénování modelu s vyšší úspěšností. Datová sada je zanalyzována shlukovacím algoritmem a každý shluk je charakterizován statistickým popisem vyplývající z atributů vstupní datové sady. Statistický popis spolu s informacemi o původním klasifikátoru je použit pro výpočet skóre. Skóre slouží jako váha při modifikační fázi. Shluková analýza umožní vyfiltrovat data, která jsou důležitá pro natrénování výsledného modelu. Navržený přístup umožňuje zmírnit redundanci datové sady a nebo ji rozšířit o chybějící data. Výsledkem je modifikační framework, který je schopen redukovat datové sady nebo provádět jejich agregaci za účelem vytvoření kompaktní datové sady, která bude reflektovat aktuální síťový provoz. Na vytvořených datových sadách se podařilo natrénovat modely dosahující vyšší úspěšnosti v porovnání s existujícím řešením.
In network security, machine learning techniques are used to effectively detect anomalies and malware in network traffic. A quality dataset is needed to train a network classifier with high accuracy. The aim of this paper is to modify the dataset using machine learning techniques to improve the quality of the dataset which will lead to training the model with a higher accuracy. The dataset is analyzed by a clustering algorithm and each cluster is characterized by a statistical description resulting from the attributes of the input dataset. The statistical description along with the information of the original classifier is used to compute the score. The score serves as a weight in the modification phase. Cluster analysis allows to filter out the data that are important for training the final model. The proposed approach allows us to mitigate the redundancy of the dataset or to augment it with missing data. The result is a modification framework that is able to reduce the datasets or perform their aggregation in order to create a compact dataset that reflects the actual network traffic. Models were trained on the created datasets and achieved higher accuracy compared to the existing solution.
Klíčová slova:
Augumentace dat; Datové sady; DGA; DoH; Kvalita datové sady; Modifikace dat; Redukce dat; Shlukování; Strojové učení; Síťová bezpečnost; Úspěšnost modelu; Clustering; Data augmentation; Data modification; Data reduction; Datasets; DGA; DoH; Machine learning; Model accuracy; Network security; Quality of dataset
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/211954