Název:
Efektivní kNN klasifikace malwaru z HTTPS dat
Překlad názvu:
Efficient kNN classification of malware from HTTPS data
Autoři:
Maroušek, Jakub ; Lokoč, Jakub (vedoucí práce) ; Galamboš, Leo (oponent) Typ dokumentu: Bakalářské práce
Rok:
2017
Jazyk:
eng
Abstrakt: [eng][cze] An important task of Network Intrusion Detection Systems (NIDS) is to detect malign com- munication in a computer network traffic. The traditional detection approaches which analyze the content of network packets, are becoming insufficient with an increased usage of encrypted HTTPS protocol. The previous research shows, however, that the high-level properties of HTTPS commu- nication such as the duration of a request or the number of bytes sent/received from the client to the server may be successfully used to detect behavioral patterns of malware activity. We study approximate k-NN similarity joins as one of the methods to build a classifier recognizing malign communication. Three MapReduce-based and one centralized approximate k-NN join methods are reimplemented in order to support large volumes of high-dimensional data. Finally, we thoroughly evaluate all methods on different datasets containing vectors up to 1000 dimensions and compare multiple aspects concerning scalability, approximation precision and classification precision of each approach.Jedním z důležitých úloh systémů pro detekci průniku je rozpoznání komunikace malwaru v počítačové síti. Tradiční metody detekce, které analyzují obsah paketů, přestávají být dostačující vzhledem k nárůstu použití šifrovaného protokolu HTTPS. Výzkumem však bylo prokázáno, že vysokoúrovňové informace o HTTPS spojení, například množství odeslaných a přijatých dat nebo délka požadavku, mohou být úspěšně využity k detekci vzorů chování malwaru. V této práci se zabýváme algoritmy k-NN, které mohou být využity k sestavení klasifikátoru detekujícím škodlivou komunikaci. Implementujeme metody aproximativního k-NN hledání s důrazem na zpracování vel- kých objemů vysokodimenzionálních dat, konkrétně tři distribuované postupy pomocí frameworku MapReduce a jeden centralizovaný postup. Následuje srovnání metod na datech obsahujících až 1000dimenzionální objekty podle škálovatelnosti, přesnosti hledání a výsledcích klasifikace.
Klíčová slova:
HTTPS data; kNN klasifikace; MapReduce; HTTPS data; kNN classification; MapReduce