Original title:
Univerzální systém pro triplifikaci dat z HTML dokumentů
Translated title:
Universal Framework for HTML Triplification
Authors:
Kadleček, Rastislav ; Stárka, Jakub (advisor) ; Klímek, Jakub (referee) Document type: Bachelor's theses
Year:
2013
Language:
slo Abstract:
[eng][cze] The aim of this bachelor thesis is to introduce Linked Data and Resource Description Framework technologies, and map the current situation in the field of HTML document data extraction and extracted data conversion to RDF format. In this thesis, the software system Strigil is introduced. This system is designed to triplificate data from HTML documents, however, it is extensible for another file formats. The features of this system are demonstrated by triplificating data from selected Web sites. Then, some statistical information about this RDF data are shown. In the conclusion of this thesis, the entire thesis is summarized, and some useful hints about Web site scraping are mentioned.Cieľom tejto bakalárskej práce je predstaviť technológie Linked Data a Resource Description Framework, prieskum situácie v oblasti získavania dát z HTML dokumentov a ich prevodu do formátu RDF. V práci je predstavený softwarový systém Strigil, ktorý slúži práve na účely triplifikácie dát z HTML dokumentov, je však rozšíriteľný aj na iné formáty. Schopnosti tohoto systému sú demonštrované prostredníctvom triplifikácie dát z vybraných zdrojov. Nad získaných dátami sú následne vytvárané niektoré štatistické informácie. Na záver je celá práca zhrnutá, a sú uvedené niektoré postrehy ohľadne extrahovania dát z Webových stránok.
Keywords:
HTML; LinkedData; Triplification; HTML; LinkedData; Triplifikace
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/58087