Název:
Transformace HTML dat o produktech do Linked Data formátu
Překlad názvu:
Converting HTML product data to Linked Data
Autoři:
Kadleček, Rastislav ; Nečaský, Martin (vedoucí práce) ; Svoboda, Martin (oponent) Typ dokumentu: Diplomové práce
Rok:
2018
Jazyk:
eng
Abstrakt: [eng][cze] In order to make a step towards the idea of the Semantic Web it is necessary to research ways how to retrieve semantic information from documents published on the current Web 2.0. As an answer to growing amount of data published in a form of relational tables, the Odalic system, based on the extended TableMiner+ Semantic Table Interpretation algorithm was introduced to provide a convenient way to semantize tabular data using knowledge base disambiguation process. The goal of this thesis is to propose an extended algorithm for the Odalic system, which would allow the system to gather semantic information for tabular data describing products from e-shops, which have very limited presence in the knowl- edge bases. This should be achieved by using a machine learning technique called classification. This thesis consists of several parts - obtaining and preprocessing of the product data from e-shops, evaluation of several classification algorithms in order to select the best-performing one, description of design and implementation of the extended Odalic algorithm, description of its integration into the Odalic system, evaluation of the improved algorithm using the obtained product data and semantization of the product data using the new Odalic algorithm. In the end, the results are concluded and possible...Pre priblíženie sa myšlienke Sémantického Webu je potrebný výskum v oblasti získavania sémantických informácií z dokumentov publikovaných na súčasnom Webe 2.0. Neustále narastajúci počet dát publikovaných vo forme relačných tabuliek viedol ku vzniku systému Odalic. Systém Odalic, založený na rozšírenej verzii Semantic Table Interpretation algoritmu TableMiner+ , poskytuje pohodlný spôsob sémantizácie tabuľkových dát za pomoci existujúcich znalostných databáz. Cieľom tejto práce je navrhnúť vylepšenú verziu algoritmu pre systém Odalic, ktorý by mu umožnil získať sémantické informácie z tabuliek reprezentujúcich dáta o produktoch z e-shopov napriek tomu, že takéto dáta majú v existujúcich znalostných databázach neveľké zastúpenie. To by malo byť dosiahnuté použitím metódy strojového učenia - klasifikácie. Táto diplomová práca sa skladá z týchto častí - získavanie a príprava dát o produktoch z e-shopov, porovnanie niekoľkých vybraných klasifikačných algoritmov, popis návrhu a implementácie vylepšeného algoritmu pre systém Odalic, popis integrácie tohto algoritmu do systému Odalic, vyhodnotenie prínosu tohto algoritmu pre systém Odalic za pomoci získaných produktových dát a sémantizácia získaných...
Klíčová slova:
datová kvalita; linked data; znalostní báze; data quality; knowledge bases; linked data