Název:
Hadoop: HDFS, MapReduce a výpočty v IBM BigInsights
Překlad názvu:
Hadoop: HDFS, MapReduce and cmputing in IBM BigInsights
Autoři:
Fessl, Adam ; Řezáč, Miroslav (vedoucí práce) ; Novotný, Ota (oponent) Typ dokumentu: Bakalářské práce
Rok:
2014
Jazyk:
cze
Nakladatel: Vysoká škola ekonomická v Praze
Abstrakt: [cze][eng] Práce spadá do oblasti zpracování dat velkého rozsahu. Věnuje se Hadoopu, open-source nástroji pro distribuované zpracování a ukládání dat. Cílem práce je poskytnutí teoretických znalostí a objasnění základních principů v problema-tice Apache Hadoop. Zejména se jedná o souborový systém HDFS a model pro distribuo-vané výpočty MapReduce. Teoretické znalosti a principy jsou demonstrovány na modifiko-vané aplikaci WordCount v prostředí IBM InfoSphere BigInsights. Text je rozdělen do tří částí, přičemž první část se věnuje Hadoopu a jeho základním modu-lům, druhá část poskytuje informace o předních distributorech Hadoopu a detailně se věnu-je distribuci společnosti IBM. Část poslední je věnovaná praktickým výpočtům. Přínosem práce je ucelený pohled na Hadoop, který slučuje pohled technologický s pohle-dem praktického využití. Nový pohled je demonstrován na příkladech a doplněn způsoby, jakým lze s tímto nástrojem pracovat.This undergraduate thesis thematically appertains to the field of Big Data. Particularly, it concerns Hadoop, an open-source tool, serving for distributed processing and saving data. The object of this thesis is to provide the reader with theoretical knowledge and basic prin-ciples concerning the Apache Hadoop with concentration on the file system HDFS and model for distributed MapReduce computing. Theoretical knowledge and principles are illustrated on modified application WordCount in IBM InfoSphereBigInsights. This work consists of three parts. First part is dealing with Hadoop and its basic modules. Second one provides information concerning the prominent Hadoop distributors; special attention is given to IBM. The last part presents practical computing. This thesis offers a comprehensive view on Hadoop, which combines technical point of view with practical application. Both of them are illustrated on particular examples and supplemented with methods to operate Hadoop.
Klíčová slova:
BigData; Distribuované výpočty; Hadoop; HDFS; IBM InfoSphere BigInsights; Java; MapReduce; WordCount; BigData; Distributed computing; Hadoop; HDFS; IBM InfoSphere BigInsights; Java; MapReduce; WordCount
Instituce: Vysoká škola ekonomická v Praze
(web)
Informace o dostupnosti dokumentu:
Dostupné v digitálním repozitáři VŠE. Původní záznam: http://www.vse.cz/vskp/eid/41845