Original title:
Transformace HTML dat o produktech do Linked Data formátu
Translated title:
Converting HTML product data to Linked Data
Authors:
Kadleček, Rastislav ; Nečaský, Martin (advisor) ; Svoboda, Martin (referee) Document type: Master’s theses
Year:
2018
Language:
eng Abstract:
[eng][cze] In order to make a step towards the idea of the Semantic Web it is necessary to research ways how to retrieve semantic information from documents published on the current Web 2.0. As an answer to growing amount of data published in a form of relational tables, the Odalic system, based on the extended TableMiner+ Semantic Table Interpretation algorithm was introduced to provide a convenient way to semantize tabular data using knowledge base disambiguation process. The goal of this thesis is to propose an extended algorithm for the Odalic system, which would allow the system to gather semantic information for tabular data describing products from e-shops, which have very limited presence in the knowl- edge bases. This should be achieved by using a machine learning technique called classification. This thesis consists of several parts - obtaining and preprocessing of the product data from e-shops, evaluation of several classification algorithms in order to select the best-performing one, description of design and implementation of the extended Odalic algorithm, description of its integration into the Odalic system, evaluation of the improved algorithm using the obtained product data and semantization of the product data using the new Odalic algorithm. In the end, the results are concluded and possible...Pre priblíženie sa myšlienke Sémantického Webu je potrebný výskum v oblasti získavania sémantických informácií z dokumentov publikovaných na súčasnom Webe 2.0. Neustále narastajúci počet dát publikovaných vo forme relačných tabuliek viedol ku vzniku systému Odalic. Systém Odalic, založený na rozšírenej verzii Semantic Table Interpretation algoritmu TableMiner+ , poskytuje pohodlný spôsob sémantizácie tabuľkových dát za pomoci existujúcich znalostných databáz. Cieľom tejto práce je navrhnúť vylepšenú verziu algoritmu pre systém Odalic, ktorý by mu umožnil získať sémantické informácie z tabuliek reprezentujúcich dáta o produktoch z e-shopov napriek tomu, že takéto dáta majú v existujúcich znalostných databázach neveľké zastúpenie. To by malo byť dosiahnuté použitím metódy strojového učenia - klasifikácie. Táto diplomová práca sa skladá z týchto častí - získavanie a príprava dát o produktoch z e-shopov, porovnanie niekoľkých vybraných klasifikačných algoritmov, popis návrhu a implementácie vylepšeného algoritmu pre systém Odalic, popis integrácie tohto algoritmu do systému Odalic, vyhodnotenie prínosu tohto algoritmu pre systém Odalic za pomoci získaných produktových dát a sémantizácia získaných...
Keywords:
data quality; knowledge bases; linked data; datová kvalita; linked data; znalostní báze
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/101354