Original title:
Efektivní kNN klasifikace malwaru z HTTPS dat
Translated title:
Efficient kNN classification of malware from HTTPS data
Authors:
Maroušek, Jakub ; Lokoč, Jakub (advisor) ; Galamboš, Leo (referee) Document type: Bachelor's theses
Year:
2017
Language:
eng Abstract:
[eng][cze] An important task of Network Intrusion Detection Systems (NIDS) is to detect malign com- munication in a computer network traffic. The traditional detection approaches which analyze the content of network packets, are becoming insufficient with an increased usage of encrypted HTTPS protocol. The previous research shows, however, that the high-level properties of HTTPS commu- nication such as the duration of a request or the number of bytes sent/received from the client to the server may be successfully used to detect behavioral patterns of malware activity. We study approximate k-NN similarity joins as one of the methods to build a classifier recognizing malign communication. Three MapReduce-based and one centralized approximate k-NN join methods are reimplemented in order to support large volumes of high-dimensional data. Finally, we thoroughly evaluate all methods on different datasets containing vectors up to 1000 dimensions and compare multiple aspects concerning scalability, approximation precision and classification precision of each approach.Jedním z důležitých úloh systémů pro detekci průniku je rozpoznání komunikace malwaru v počítačové síti. Tradiční metody detekce, které analyzují obsah paketů, přestávají být dostačující vzhledem k nárůstu použití šifrovaného protokolu HTTPS. Výzkumem však bylo prokázáno, že vysokoúrovňové informace o HTTPS spojení, například množství odeslaných a přijatých dat nebo délka požadavku, mohou být úspěšně využity k detekci vzorů chování malwaru. V této práci se zabýváme algoritmy k-NN, které mohou být využity k sestavení klasifikátoru detekujícím škodlivou komunikaci. Implementujeme metody aproximativního k-NN hledání s důrazem na zpracování vel- kých objemů vysokodimenzionálních dat, konkrétně tři distribuované postupy pomocí frameworku MapReduce a jeden centralizovaný postup. Následuje srovnání metod na datech obsahujících až 1000dimenzionální objekty podle škálovatelnosti, přesnosti hledání a výsledcích klasifikace.
Keywords:
HTTPS data; kNN classification; MapReduce; HTTPS data; kNN klasifikace; MapReduce
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/90345