Original title:
Benchmark nástrojů pro řízení datové kvality
Translated title:
Data Quality Tools Benchmark
Authors:
Černý, Jan ; Pejčoch, David (advisor) ; Máša, Petr (referee) Document type: Master’s theses
Year:
2013
Language:
cze Publisher:
Vysoká škola ekonomická v Praze Abstract:
[cze][eng] Společnosti po celém světě stále více a více promrhávají své rozpočty v důsledku nekvalitních dat. Logicky, se zvyšujících se množstvím zpracovávaných informací roste i množství chyb v nich. Tato práce vysvětluje co je datová kvalita, příčiny vzniku chyb v datech, jejich důsledky i to jakým způsobem lze datovou kvalitu měřit. A pokud něco lze měřit, lze to i zlepšit. K tomu slouží nástroje pro řízení datové kvality. Trh s nástroji pro řízení datové kvality nabízí jak komerční, tak open-source řešení. Porovnáním nástroje DataCleaner (open-source) a DataFlux (komerční) na modelovém příkladu dle definovaných kritérií bylo v této práci dokázáno, že nástroje si mohou být rovné v oblasti profilace dat, obohacování a monitorování. Standardizaci a validaci zvládá lépe DataFlux. Deduplikace v DataCleaneru chybí, přestože byla výrobcem uváděna. Jednou z velkých překážek bránících firmám nákupu nástroje pro řízení datové kvality může být právě jeho vysoká cena. V tuto chvíli je již možné považovat DataCleaner za plnohodnotné levné řešení v oblasti profilace dat. Za podmínky, že společnost Human Inference doplní do DataCleaneru i deduplikaci dat, bude ho možné považovat za konkurenci v oblasti celého procesu řízení dat.Companies all around the world are wasting their funds due to the poor data quality. Rationally speaking as the volume of processed data increase, the volume of error data increase too. This diploma thesis explains what is it data quality about, what are the causes of data quality errors, the impact of poor data and the way it can be measured. If you can measure it, you can improve it. This is where data quality tools are used. There are vendors that offer commercial solutions and there are also vendors that offer open-source solutions of data quality tools. Comparing DataCleaner (open-source tool) with DataFlux (commercial tool) using defined criteria this diploma thesis proves that those two tools could be equal in terms of data profiling, data enhancement and data monitoring. DataFlux is slightly better in standardization and data validation. Data deduplication is not included in tested version of DataCleaner, although DataCleaner's vendor claimed it should be. One of the biggest obstacles why companies don't buy data quality tools could be its price. At this moment, it is possible to consider DataCleaner as an inexpensive solution for companies looking for data profiling tool. If Human Inference added data deduplication to DataCleaner, it could be also possible to consider it as an inexpensive solution covers whole data quality process.
Keywords:
Benchmark; Comparison; Data Quality; Data Quality Tools; DataCleaner; DataFlux; benchmark; DataCleaner; DataFlux; datová kvalita; nástroje pro řízení datové kvality; porovnání
Institution: University of Economics, Prague
(web)
Document availability information: Available in the digital repository of the University of Economics, Prague. Original record: http://www.vse.cz/vskp/eid/40945