Original title:
Integrace Big Data a datového skladu
Translated title:
Integration of Big Data and data warehouse
Authors:
Kiška, Vladislav ; Novotný, Ota (advisor) ; Kerol, Valeria (referee) Document type: Master’s theses
Year:
2017
Language:
cze Publisher:
Vysoká škola ekonomická v Praze Abstract:
[cze][eng] Diplomová práce se zabývá problémem datové integrace Big Data platformy a podnikového datového skladu. Hlavním cílem je vytvoření přenosového systému, který pomocí vhodně zvoleného nástroje bude přenášet data z datového skladu na tuto platformu a bude udržovat informace o všech realizovaných přenosech. V teoretické části se práce soustředí na představení pojmu Big Data, stručný vývoj těchto technologií a faktory, které vedly k potřebě těchto technologií. Dále jsou představeny hlavní principy a vlastnosti těchto technologií a přínos jejich implementace do podniku. Práce popisuje také nástroje a přístupy označované jako Business Intelligence, jejich typické použití v podniku a jejich vztah k technologiím Big Data. Dílčí podkapitola se také věnuje systému Hadoop a nejpopulárnějším technologiím, které s ním souvisí. Praktická část se věnuje konkrétní vzorové implementaci tohoto aparátu, který bude realizovat přenosy z klasické relační databáze, představující datový sklad, do clusteru několika počítačů provozujících systém Hadoop. Součástí praktické části je také přehled několika možných nástrojů, které se aktuálně používají pro nahrávání dat do Hadoopu a návrh databázového schématu metadat, které bude sloužit k řízení celého systému a udržování informací o proběhlých přenosech.Master thesis deals with a problem of data integration between Big Data platform and enterprise data warehouse. Main goal of this thesis is to create a complex transfer system to move data from a data warehouse to this platform using a suitable tool for this task. This system should also store and manage all metadata information about previous transfers. Theoretical part focuses on describing concepts of Big Data, brief introduction into their history and presents factors which led to need for this new approach. Next chapters describe main principles and attributes of these technologies and discuss benefits of their implementation within an enterprise. Thesis also describes technologies known as Business Intelligence, their typical use cases and their relation to Big Data. Minor chapter presents main components of Hadoop system and most popular related applications. Practical part of this work consists of implementation of a system to execute and manage transfers from traditional relation database, in this case representing a data warehouse, to cluster of a few computers running a Hadoop system. This part also includes a summary of most used applications to move data into Hadoop and a design of database metadata schema, which is used to manage these transfers and to store transfer metadata.
Keywords:
Big Data; Business Intelligence; data integration; data warehouse; Hadoop; Sqoop; Big Data; Business Intelligence; datová integrace; datové sklady; Hadoop; Sqoop
Institution: University of Economics, Prague
(web)
Document availability information: Available in the digital repository of the University of Economics, Prague. Original record: http://www.vse.cz/vskp/eid/68614