|
Apache Hadoop jako analytická platforma
Brotánek, Jan ; Novotný, Ota (vedoucí práce) ; Kerol, Valeria (oponent)
Diplomová práce se zabývá použitím platformy Hadoop při zpracování velkého objemu dat a její integrací do stávající architektury datového skladu. V teoretické části jsou popsány vlastnosti Big Data, charakteristiky jejich metod a výpočetních modelů. Podrobně je popsán framework Hadoop, jeho komponenty a distribuce, v níž jsou dodávány. Jsou popsány komponenty frameworku, které umožňují použití frameworku Hadoop a přístup do clusteru uživatelům, vývojářům a analytikům. V praktické části práce je realizována případová studie ELT procesu dávkové extrakce dat nástrojem Sqoop ze stávajícího datového skladu na platformě Oracle, jejich transformace v relačních strukturách komponenty Hive a následné dohrání dat zpět do datového skladu. Pozornost je věnována způsobu uložení dat, jejich kompresi a souborovému formátu a rychlosti vykonání dotazů nad nimi. V průběhu procesu jsou data porovnávána vůči zdroji a tím zajištěna jejich kvalita. Část praktické práce je věnována problematice tokových dat. Jejich ukládání a zpracování je demonstrováno v nástrojích Flume a Pig Cílem práce je přesunutí části dat a výpočtů nad nimi realizovaných ze stávajícího datového skladu do prostředí Hadoop. Za tímto účelem byl navržen proces integrace stávajícího datového skladu s komponentami distribuce Hortonworks Data Platform.
|