Original title:
BigData řešení pro zpracování rozsáhlých dat ze síťových toků
Translated title:
BigData Approach to Management of Large Netflow Datasets
Authors:
Melkes, Miloslav ; Ráb, Jaroslav (referee) ; Ryšavý, Ondřej (advisor) Document type: Master’s theses
Year:
2014
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Tato diplomová práce se zaměřuje na problematiku distribuovaného zpracování velkých dat ze síťové komunikace. Začíná analýzou síťové komunikace založené na modelu TCP/IP se zaměřením na datové jednotky na jednotlivých vrstvách, které je nutno při analýze síťových dat zpracovávat. Z hlediska vlastního zpracování rozsáhlých dat je objasněn výpočetní model MapReduce, architektura technologie Apache Hadoop a jejich možné využití pro zpracování síťových toků na clusteru počítačů. Druhá část práce se zbývá návrhem a následnou implementací aplikace pro zpracování síťových toků ze zachycené síťové komunikace. V této části jsou rozebrány klíčové a problematické části z implementace. Celá práce je poté zakončena srovnáním s dostupnými nástroji pro síťovou analýzu a vyhodnocením sady testů, které potvrdili lineární růst zrychlení.
This master‘s thesis focuses on distributed processing of big data from network communication. It begins with exploring network communication based on TCP/IP model with focus on data units on each layer, which is necessary to process during analyzation. In terms of the actual processing of big data is described programming model MapReduce, architecture of Apache Hadoop technology and it‘s usage for processing network flows on computer cluster. Second part of this thesis deals with design and following implementation of the application for processing network flows from network communication. In this part are discussed main and problematic parts from the actual implementation. After that this thesis ends with a comparison with available applications for network analysis and evaluation set of tests which confirmed linear growth of acceleration.
Keywords:
Apache Hadoop; Big Data; HDFS; libpcap; MapReduce; MongoDB; Netflow; network flow; PCAP; TCP/IP; WinPcap; Wireshark; Apache Hadoop; Big Data; HDFS; libpcap; MapReduce; MongoDB; Netflow; PCAP; síťový tok; TCP/IP; WinPcap; Wireshark
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/53282