Original title:
Datový sklad na technologiích IBM a jeho možnosti
Translated title:
Data warehouse based on IBM technologies and its possibilities
Authors:
Snítil, Jiří ; Pour, Jan (advisor) ; Novotný, Ota (referee) Document type: Master’s theses
Year:
2017
Language:
cze Publisher:
Vysoká škola ekonomická v Praze Abstract:
[cze][eng] Tato diplomová práce se zabývá analýzou rozšiřujících konceptů použitelných v datových skladech. V práci jsou vybrány tři rozšiřující koncepty k analýze a je zdůvodněn jejich výběr. Prvním z nich je způsob zachycení změn ve zdrojových systémech Change Data Capture (CDC). Druhým z nich je historizace takto zachycených změn do historické kolekce dat. Třetím z nich je použití analytických funkcí přímo v technologii datového skladu. Pro analýzu těchto vybraných rozšiřujících konceptů je vytvořeno nové testovací prostředí, v kterém je jako hlavní databázový systém použita technologie Netezza dostupná v produktu IBM PureData System for Analytics, powered by Netezza technology (PDA). Všechny vybrané rozšiřující koncepty jsou v tomto testovacím prostředí vyzkoušeny. Na základě výsledků z testovacího prostředí a poznatků z praxe jsou analyzovány dopady použití těchto rozšiřujících konceptů na datový sklad a to zejména vzhledem k možným přínosům. V testovacím prostředí bylo také ověřeno, že všechny analyzované rozšiřující koncepty je možné použít v rámci datového skladu. V prvním rozšiřujícím konceptu bylo mapování LiveAudit vybráno jako vhodné pro použití při dalším zpracování dat, kdy s jeho pomocí je možné jednoznačně určit stav dat zdrojového systému v libovolném minulém časovém bodě. V druhém rozšiřujícím konceptu bylo vyzkoušeno, že data získaná pomocí mapování LiveAudit lze efektivně zpracovávat do historické kolekce dat. Na tomto základě bylo navrženo generické řešení zpracování dat ze zdrojových systémů. Ve třetím rozšiřujícím konceptu bylo vyzkoušeno, že lze pracovat v nativním analytickém prostředí RGui a přenést samotný výpočet k datům, umístěným v datovém skladu, bez nutnosti jejich migrace a že je možné vyvinout a používat nové analytické funkce napsané v jazyce C++ přímo v technologii datového skladu.This diploma thesis deals with the analysis of advanced data warehouse concepts where three advanced data warehouse concepts are analysed and their selection is justified. The first selected advanced data warehouse concept is a method of capturing data changes from sources system Change Data Capture (CDC). The second concept is the historization of captured data into historical data collection. The third concept is the application of analytical functions directly within data warehouse technology. A new testing environment has been created to analyse these concepts where the main database system Netezza available in IBM PureData System for Analytics, powered by Netezza technology (PDA), is utilised. This testing environment allowed all selected advanced data warehouse concepts to be reviewed. An impact of the application of these advanced data warehouse concepts has been analysed based on results from the testing environment and practical insights, particularly regarding potential advances. In the testing environment it was verified that all analysed advanced data warehouse concepts are applicable in a data warehouse. In the first advanced data warehouse concept was chosen LiveAudit mapping as appropriate for further data processing, when with this mapping it is possible to unambiguously determine the state of data in a source system at any point in the past. The second advanced data warehouse concept established that data acquired from LiveAudit mapping is possible to effectively process into historical data collection. Based on these findings, there was proposed generic solution of processing data from source systems. In the third advanced data warehouse concept was also proved, that it is possible to work in native analytic environment RGui and move the computation itself into data, which is located in the data warehouse, without the necessity of migration of these data. Further, it is possible to develop and use a new analytic function written in C++ language directly into the technology of the data warehouse.
Keywords:
advanced data warehouse concepts; analytics functions; Change Data Capture; data warehouse; historical data collection; historization; IBM InfoSphere Change Data Capture; IBM Netezza Analytics; IBM PureData for Analytics; Netezza; temporal data; UDF; UDX; User-defined function; analytické funkce; Change Data Capture; datový sklad; historická kolekce dat; historizace; IBM InfoSphere Change Data Capture; IBM Netezza Analytics; IBM PureData for Analytics; Netezza; rozšiřující koncepty datového skladu; temporální data; UDF; UDX; Uživatelsky definované funkce
Institution: University of Economics, Prague
(web)
Document availability information: Available in the digital repository of the University of Economics, Prague. Original record: http://www.vse.cz/vskp/eid/68518