Original title:
Komponentizace transformací linked data
Translated title:
Componentization of Linked Data Transformations
Authors:
Pilař, Štěpán ; Mynarz, Jindřich (advisor) ; Knap, Tomáš (referee) Document type: Master’s theses
Year:
2013
Language:
cze Publisher:
Vysoká škola ekonomická v Praze Abstract:
[cze][eng] Diplomová práce se zabývá problematikou transformací linked data a možností kom-ponentizace extract, transform, load procesu s důrazem na přepoužitelnost. Příklady komponent jsou demonstrovány v prostředí nástroje UnifiedViews. Po prozkoumání souvisejících oblastí výzkumu, především ETL v relačním světě a managementu kvali-ty linked data, jsou pomocí bottom-up přístupu rozebrány existující extrakce a trans-formace, v nichž jsou identifikovány příležitosti komponentizace, které jsou doplněny o další možné operace inspirované transformacemi relačních dat. Kromě uvedení potenciálních komponent jsou pro každou z nich diskutovány i možnosti a limitace využití samostatně i v kombinaci s jinými komponentami. Následuje rozbor možností implementace komponent a přehled klíčových otázek při volbě způsobu jejich reali-zace. Implementace vybraných komponent v souladu s navrženým postupem je po-psána v poslední části práce. Současně je jejich využití a omezení demonstrováno na praktických úlohách s daty z oblasti veřejných zakázek.The diploma thesis is focused on transformation of linked data and opportunities for componentization of extract, transform, load process resulting in reusability of such components. UnifiedViews serves as a framework for demonstration of implementa-tion of selected components. Initial review of related fields of study, relational data oriented ETL and linked data quality management being most prominent, is followed by bottom-up analysis of existing extractors and transformations. Identified common transformations are supplemented by operations known from transformations of relational data. Options and limits of each component candidate are discussed as well as possible cooperation with other components. The next section discusses supported ways of implementation in the selected environment and provides a list of key questions for decision making process is provided. The last part describes implementation of selected components with respect to the approach suggested in the preceding section. Practical use as well as limitations of the implemented components are demonstrated on tasks transforming public contracts datasets.
Keywords:
data transformation; deduplication; geocoding; linked data; UnifiedViews; deduplikace; geokódování; linked data; transformace dat; UnifiedViews
Institution: University of Economics, Prague
(web)
Document availability information: Available in the digital repository of the University of Economics, Prague. Original record: http://www.vse.cz/vskp/eid/40756