Název:
Komponentizace transformací linked data
Překlad názvu:
Componentization of Linked Data Transformations
Autoři:
Pilař, Štěpán ; Mynarz, Jindřich (vedoucí práce) ; Knap, Tomáš (oponent) Typ dokumentu: Diplomové práce
Rok:
2013
Jazyk:
cze
Nakladatel: Vysoká škola ekonomická v Praze
Abstrakt: [cze][eng] Diplomová práce se zabývá problematikou transformací linked data a možností kom-ponentizace extract, transform, load procesu s důrazem na přepoužitelnost. Příklady komponent jsou demonstrovány v prostředí nástroje UnifiedViews. Po prozkoumání souvisejících oblastí výzkumu, především ETL v relačním světě a managementu kvali-ty linked data, jsou pomocí bottom-up přístupu rozebrány existující extrakce a trans-formace, v nichž jsou identifikovány příležitosti komponentizace, které jsou doplněny o další možné operace inspirované transformacemi relačních dat. Kromě uvedení potenciálních komponent jsou pro každou z nich diskutovány i možnosti a limitace využití samostatně i v kombinaci s jinými komponentami. Následuje rozbor možností implementace komponent a přehled klíčových otázek při volbě způsobu jejich reali-zace. Implementace vybraných komponent v souladu s navrženým postupem je po-psána v poslední části práce. Současně je jejich využití a omezení demonstrováno na praktických úlohách s daty z oblasti veřejných zakázek.The diploma thesis is focused on transformation of linked data and opportunities for componentization of extract, transform, load process resulting in reusability of such components. UnifiedViews serves as a framework for demonstration of implementa-tion of selected components. Initial review of related fields of study, relational data oriented ETL and linked data quality management being most prominent, is followed by bottom-up analysis of existing extractors and transformations. Identified common transformations are supplemented by operations known from transformations of relational data. Options and limits of each component candidate are discussed as well as possible cooperation with other components. The next section discusses supported ways of implementation in the selected environment and provides a list of key questions for decision making process is provided. The last part describes implementation of selected components with respect to the approach suggested in the preceding section. Practical use as well as limitations of the implemented components are demonstrated on tasks transforming public contracts datasets.
Klíčová slova:
deduplikace; geokódování; linked data; transformace dat; UnifiedViews; data transformation; deduplication; geocoding; linked data; UnifiedViews
Instituce: Vysoká škola ekonomická v Praze
(web)
Informace o dostupnosti dokumentu:
Dostupné v digitálním repozitáři VŠE. Původní záznam: http://www.vse.cz/vskp/eid/40756