Název:
Automatické generování grafů z otevřených datasetů
Překlad názvu:
Automatic creation of charts from open datasets
Autoři:
Novelinka, Samuel ; Skopal, Tomáš (vedoucí práce) ; Klímek, Jakub (oponent) Typ dokumentu: Bakalářské práce
Rok:
2021
Jazyk:
eng
Abstrakt: [eng][cze] There has been a substantial influx of open datasets in recent years due to many factors such as new legislation aiming towards government transparency as well as the boom of open-source software. However, this abundance of freely available data comes with its own issues such as lacking or non-uniform metadata. This makes it considerably more difficult to browse and search open datasets. To partially tackle this problem we propose an algorithm which employs schema discovery techniques to parse the provided dataset and selects potentially useful charts which offer fast insight into the data structure, all while requiring minimal user interaction and configuration. Next, we describe a specific implementation of the algorithm in form of a Chrome extension, which dynamically processes a found dataset and renders a set of selected charts. Finally, we provide results of tests on a random set of datasets, give examples of usage of our implementation, and conclude the thesis with our final thoughts on the algorithm, our criticism, as well as ideas on potential improvements. 1V posledných rokoch sa na internete začali vo veľkej miere objavovať otvorené datasety. Túto situáciu možno pripísať rôznym faktorom ako zmeny legislatív po celom svete, ktoré sa snažia dosiahnuť transparenciu vládnych inštitúcií, ako aj vysoká popularita open- source softvéru. Tento fenomén však prichádza s mnohými problémami, ako je napríklad nejednoznačnosť či úplná neexistencia metadát. Tento fakt značne sťažuje prezeranie a vyhľadávanie v otvorených datasetoch. Aby sme aspoň čiastočne vyriešili tento problém, v tejto práci navrhneme algoritmus, ktorý využíva techniky schema discovery na parsovanie poskytnutých datasetov, a následne vytvára potenciálne užitočné grafické reprezentácie daných dát, aby tým ponúkol užívateľovi rýchly a jednoduchý náhľad na vnútorné zloženie a štruktúru. Následne opíšeme našu konkrétnu implmentáciu tohto algoritmu vo forme Chrome extension, ktorá dynamicky spracuje nájdené datasety, a vykreslí pre užívateľa možné grafické reprezentácie. Nakoniec uvedieme výsledky testov našej implementácie na sade náhodných datasetov, ukážeme príklady použitia a uzavrieme našu prácu zhrnutím našich postrehov ohľadom implementovaného algoritmu, kritikou slabších článkov imple- mentácie, ako aj našou predstavou konkrétnych vylepšení v blízkej budúcnosti. 1
Klíčová slova:
otvorené datasety|tabuľkové datasety|schema discovery|grafy; open data|tabular datasets|schema discovery|charts