Original title:
Zpracování síťové komunikace v prostředí Apache Spark
Translated title:
Network Traces Analysis Using Apache Spark
Authors:
Béder, Michal ; Veselý, Vladimír (referee) ; Ryšavý, Ondřej (advisor) Document type: Master’s theses
Year:
2018
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Táto práca rieši spôsob návrhu aplikácie na analýzu dát sieťovej komunikácie v prostredí distribuovaného systému Apache Spark. Implementáciu je možné rozdeliť do troch častí. Prvou je načítanie dát z distribuovaného úložiska HDFS, druhou analýza podporovaných sieťových protokolov a treťou distribuované vyhodnotenie výsledkov. Po vyhodnotení sú výstupy zobrazené v prostredí Apache Zeppelin. Výsledná aplikácia je schopná analyzovať jednotlivé pakety ako aj celé sieťové toky. Podporovanými formátmi vstupných dát sú pcap a JSON. Hlavným prínosom aplikácie je možnosť spracovania veľkých objemov dát. Jej výkonnosť je ovplyvnená hlavne formátom vstupných dát a využitím dostupných výpočetných jadier.
The aim of this thesis is to show how to design and implement an application for network traces analysis using Apache Spark distributed system. Implementation can be divided into three parts - loading data from a distributed HDFS storage, supported network protocols analysis and distributed data processing. As a data visualization tool is used web-based notebook Apache Zeppelin. The resulting application is able to analyze individual packets as well as the entire flows. It supports JSON and pcap as input data formats. The goal of the application is to allow Big Data processing. The greatest impact on its performance has the input data format and allocation of the available cores.
Keywords:
Apache Spark; Apache Zeppelin; Big Data; distributed; flow; HDFS; pcap; Scala; Wireshark; Apache Spark; Apache Zeppelin; Big Data; distribuovaný; HDFS; pcap; Scala; sieťový tok; Wireshark
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/84876