Original title:
Distribuované zpracování dat o IP tocích
Translated title:
Distributed Processing of IP flow Data
Authors:
Krobot, Pavel ; Kořenek, Jan (referee) ; Žádník, Martin (advisor) Document type: Master’s theses
Year:
2015
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Tato práce se zabývá distribuovaným zpracování dat o IP tocích. Konkrétně je pak hlavním cílem poskytnutí řešení softwarového kolektoru, který bude umoţňovat zpracování a ukládání masivního objemu dat. V rámci této práce je zkoumána volně dostupná implementace rámce pro distribuované ukládání a výpočty nad daty Hadoop, která vyuţívá modelu MapReduce. Nad tímto systémem byly následně provedeny experimenty, jejichţ smyslem bylo získat představu o výkonnosti tohoto řešení oproti řešením stávajícím a odhalit slabiny systému. Na základě získaných poznatků byla pak vytvořena specifikace a návrh rozšíření stávajícího softwarového kolektoru. Dle vytvořeného návrhu následně vznikla implementace dotazovací části navrhovaného kolektoru, která se při distribuovaném zpracování dat o IP tocích jeví jako nejvíce kritická. Výsledky experimentů s touto implementací ukázaly výrazné zvýšení výkonu při dotazování a schopnost lineární škálovatelnosti na některých typech dotazů.
This thesis deals with the subject of distributed processing of IP flow. Main goal is to provide an implementation of a software collector which allows storing and processing huge amount of a network data in particular. There was studied an open-source implementation of a framework for the distributed processing of large data sets called Hadoop, which is based on MapReduce paradigm. There were made some experiments with this system which provided the comparison with the current systems and shown weaknesses of this framework. Based on this knowledge there was created a specification and scheme for an extension of current software collector within this work. In terms of the created scheme there was created an implementation of query framework for formed collector, which is considered as most critical in the field of distributed processing of IP flow data. Results of experiments with created implementation show significant performance growth and ability of linear scalability with some types of queries.
Keywords:
computation; database; Distribution; Hadoop; IPFIX; MapReduce; Nfdump; storage; databáze; Distribuce; Hadoop; IPFIX; MapReduce; Nfdump; výpočet; úloţiště
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/64074