Original title:
Porovnání přístupů ke generování umělých dat
Translated title:
Comparison of Approaches to Synthetic Data Generation
Authors:
Šejvlová, Ludmila ; Šimůnek, Milan (advisor) ; Pavlíčková, Jarmila (referee) Document type: Master’s theses
Year:
2017
Language:
cze Publisher:
Vysoká škola ekonomická v Praze Abstract:
[cze][eng] Diplomová práce se zabývá umělými daty, konkrétně vybranými přístupy k jejich generování a praktickou úlohou generování dat. Cílem teoretické části práce je popsat vybrané přístupy ke generování umělých dat, shrnout jejich hlavní klady a zápory a jednotlivé přístupy vůči sobě porovnat. Cílem praktické části práce je vygenerovat umělá data pro účely výuky dobývání znalostí z databází. Práce uvádí základní popis umělých dat a podrobně vysvětluje proces jejich generování. Z možných přístupů ke generování umělých dat se práce zaměřuje na náhodný přístup, statistický přístup, generovací jazyky a nástroj ReverseMiner. Práce pojednává také o využití umělých dat v praxi a o vhodnosti jednotlivých přístupů pro určité záměry. V rámci práce byla pomocí nástroje ReverseMiner vytvořena výuková data Hotel SD, která obsahují vztahy odhalitelné pomocí GUHA-procedur typu SD (set-difference).The diploma thesis deals with synthetic data, selected approaches to their generation together with a practical task of data generation. The goal of the thesis is to describe the selected approaches to data generation, capture their key advantages and disadvantages and compare the individual approaches to each other. The practical part of the thesis describes generation of synthetic data for teaching knowledge discovery using databases. The thesis includes a basic description of synthetic data and thoroughly explains the process of their generation. The approaches selected for further examination are random data generation, the statistical approach, data generation languages and the ReverseMiner tool. The thesis also describes the practical usage of synthetic data and the suitability of each approach for certain purposes. Within this thesis, educational data Hotel SD were created using the ReverseMiner tool. The data contain relations discoverable with SD (set-difference) GUHA-procedures.
Keywords:
Approaches to synthetic data generation; Data anonymization; Education data; Generation languages; GUHA-procedures; LISp-Miner; Mockaroo; Random approach; ReverseMiner; Software testing; Statistic approach; Synthetic data; Synthetic Data Definition Language; Synthetic data generation process; Synthpop; Anonymizace dat; Generovací jazyky; GUHA-procedury; LISp-Miner; Mockaroo; Náhodný přístup; Proces generování umělých dat; Přístupy ke generování umělých dat; ReverseMiner; Statistický přístup; Synthetic Data Definition Language; Synthpop; Testování softwaru; Umělá data; Výuková data
Institution: University of Economics, Prague
(web)
Document availability information: Available in the digital repository of the University of Economics, Prague. Original record: http://www.vse.cz/vskp/eid/68741