Název:
Univerzální systém pro triplifikaci dat z HTML dokumentů
Překlad názvu:
Universal Framework for HTML Triplification
Autoři:
Kadleček, Rastislav ; Stárka, Jakub (vedoucí práce) ; Klímek, Jakub (oponent) Typ dokumentu: Bakalářské práce
Rok:
2013
Jazyk:
slo
Abstrakt: [eng][cze] The aim of this bachelor thesis is to introduce Linked Data and Resource Description Framework technologies, and map the current situation in the field of HTML document data extraction and extracted data conversion to RDF format. In this thesis, the software system Strigil is introduced. This system is designed to triplificate data from HTML documents, however, it is extensible for another file formats. The features of this system are demonstrated by triplificating data from selected Web sites. Then, some statistical information about this RDF data are shown. In the conclusion of this thesis, the entire thesis is summarized, and some useful hints about Web site scraping are mentioned.Cieľom tejto bakalárskej práce je predstaviť technológie Linked Data a Resource Description Framework, prieskum situácie v oblasti získavania dát z HTML dokumentov a ich prevodu do formátu RDF. V práci je predstavený softwarový systém Strigil, ktorý slúži práve na účely triplifikácie dát z HTML dokumentov, je však rozšíriteľný aj na iné formáty. Schopnosti tohoto systému sú demonštrované prostredníctvom triplifikácie dát z vybraných zdrojov. Nad získaných dátami sú následne vytvárané niektoré štatistické informácie. Na záver je celá práca zhrnutá, a sú uvedené niektoré postrehy ohľadne extrahovania dát z Webových stránok.
Klíčová slova:
HTML; LinkedData; Triplifikace; HTML; LinkedData; Triplification