Original title:
Hledání a vytváření relací mezi sloupci v CSV souborech s využitím Linked Dat
Translated title:
Discovering and Creating Relations among CSV Columns Using Linked Data Knowledge Bases
Authors:
Brodec, Václav ; Nečaský, Martin (advisor) ; Svoboda, Martin (referee) Document type: Master’s theses
Year:
2019
Language:
eng Abstract:
[eng][cze] A large amount of data produced by governmental organizations is accessible in the form of tables encoded as CSV files. Semantic table interpretation (STI) strives to transform them into linked data in order to make them more useful. As significant portion of the tabular data is of statistical nature, and therefore comprises predominantly of numeric values, it is paramount to possess effective means for interpreting relations between the entities and their numeric properties as captured in the tables. As the current general-purpose STI tools infer the annotations of the columns almost exclusively from numeric objects of RDF triples already present in the linked data knowledge bases, they are unable to handle unknown input values. This leaves them with weak evidence for their suggestions. On the other hand, known techniques focusing on the numeric values also have their downsides. Either their background knowledge representation is built in a top-down manner from general knowledge bases, which do not reflect the domain of input and in turn do not contain the values in a recognizable form. Or they do not make use of context provided by the general STI tools. This causes them to mismatch annotations of columns consisting from similar values, but of entirely different meaning. This thesis addresses the...Velké množství dat produkovaných vládními organizacemi je přístupné ve formě tabulek kódovaných jako CSV soubory. Sémantická interpretace tabulek (STI) usiluje o jejich převod na linked data, s cílem zvýšit jejich užitečnost. Jelikož obsahem jsou převážně statistická data, sestávající se z číselných hodnot, je žádoucí disponovat efektivními prostředky na interpretaci relací mezi entitami a jejich číselnými atributy tak, jak jsou zachyceny v tabulkách. Soudobé obecné STI nástroje odvozují anotace sloupců téměř výlučně z číselných předmětů RDF trojic, které jsou již přítomné ve znalostních bázích obsahujících linked data. A proto nedokáží rozpoznat neznámé vstupní hodnoty, díky čemuž disponují jen slabou podporou pro své návrhy. Na druhou stranu známé techniky zaměřující se na číselné hodnoty mají též své neduhy. Buďto je jejich znalostní pozadí konstruováno top-down způsobem z obecných znalostních bází, které nepostihují doménu vstupu, a tak neobsahují blízké hodnoty v rozpoznatelné podobě. A nebo nevyužívají kontextu poskytovaného obecnými STI nástroji. Důsledkem toho zaměňují anotace sloupců obsahujících podobné hodnoty, ale zcela odlišného významu. Zmíněné nedostatky jsou v rámci této diplomové práce řešeny aplikací bottom-up přístupu ke konstrukci modelu znalostního pozadí, s využitím již zpracovaných...
Keywords:
CSV; linked data; open data; relations; semantic table interpretation; CSV; linked data; otevřená data; relace; sémantická interpretace tabulek
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/105094