Název:
Distribuované zpracování dat o IP tocích
Překlad názvu:
Distributed Processing of IP flow Data
Autoři:
Krobot, Pavel ; Kořenek, Jan (oponent) ; Žádník, Martin (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2015
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Tato práce se zabývá distribuovaným zpracování dat o IP tocích. Konkrétně je pak hlavním cílem poskytnutí řešení softwarového kolektoru, který bude umoţňovat zpracování a ukládání masivního objemu dat. V rámci této práce je zkoumána volně dostupná implementace rámce pro distribuované ukládání a výpočty nad daty Hadoop, která vyuţívá modelu MapReduce. Nad tímto systémem byly následně provedeny experimenty, jejichţ smyslem bylo získat představu o výkonnosti tohoto řešení oproti řešením stávajícím a odhalit slabiny systému. Na základě získaných poznatků byla pak vytvořena specifikace a návrh rozšíření stávajícího softwarového kolektoru. Dle vytvořeného návrhu následně vznikla implementace dotazovací části navrhovaného kolektoru, která se při distribuovaném zpracování dat o IP tocích jeví jako nejvíce kritická. Výsledky experimentů s touto implementací ukázaly výrazné zvýšení výkonu při dotazování a schopnost lineární škálovatelnosti na některých typech dotazů.
This thesis deals with the subject of distributed processing of IP flow. Main goal is to provide an implementation of a software collector which allows storing and processing huge amount of a network data in particular. There was studied an open-source implementation of a framework for the distributed processing of large data sets called Hadoop, which is based on MapReduce paradigm. There were made some experiments with this system which provided the comparison with the current systems and shown weaknesses of this framework. Based on this knowledge there was created a specification and scheme for an extension of current software collector within this work. In terms of the created scheme there was created an implementation of query framework for formed collector, which is considered as most critical in the field of distributed processing of IP flow data. Results of experiments with created implementation show significant performance growth and ability of linear scalability with some types of queries.
Klíčová slova:
databáze; Distribuce; Hadoop; IPFIX; MapReduce; Nfdump; výpočet; úloţiště; computation; database; Distribution; Hadoop; IPFIX; MapReduce; Nfdump; storage
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/64074