Original title:
Vyhledávač údajů ve webových stránkách
Translated title:
Web page data figure finder
Authors:
Janata, Dominik ; Vojtáš, Peter (advisor) ; Nečaský, Martin (referee) Document type: Master’s theses
Year:
2016
Language:
eng Abstract:
[eng][cze] The thesis treats automatic extraction of semantic data from Web pages. Within this broad problem, it focuses on finding values of data figures within the page presenting certain entity (e.g. price of a laptop). The main idea we wanted to evaluate is that a figure can be found using its context in the page: the words that surround it and values of the attributes of the containing HTML tags, class attribute in particular. Our research revealed there are two types of contemporary solutions of this problem: either the author of the Web page must inline semantic information inside the markup of the page or there are commercial tools that can be trained to parse a particular page format (targetting pages from a single Web domain). We examined the possibilities of developing a general solution that would - for given entity - find its properties across the Web domains using text analysis and machine learning. The naïve algorithm had about 30% accuracy, the lear- ning algorithms had the accuracy between 40 and 50% in finding the properties. Despite the accuracy is not acceptable for a final solution, we believe it confirms the potential of the idea. Keywords: Web pages data extraction 1Tato práce se zabývá automatickým získávání sémantických dat z webových stránek. V rámci tohoto široké ho problému se zaměřuje na vyhledávání hodnot údajů v rámci stránky, která prezentuje nějakou entitu (například údaj cena u stránky notebooku). Hlavní myšlenka, kterou jsme chtěli ověřit, je, že můžeme automaticky najít údaj za využití jeho kontextu v rámci stránky: slov, která ho obklopují a slov uvnitř atributů HTML tagů, v nichž je obsažen, obzvlášt' atribut class. Náš výzkum odhalil, že soudobá řešení tohoto problému lze rozdělit do dvou typů: bud' musí autor webové stránky vepsat sémantické informace do kód stránky, nebo existují komerční nástroje, které mohou být naučeny na čtení konkrétního formátu stránky (se zaměřením a stránky z jedné webové domény). Prozkoumali jsme možnosti vývoje obecného řešení, které by pro danou entitu našlo hodnoty jeho údajů napříč webovými doménami za využití analýzy textu a strojového učení. Naivní algoritmus měl přesnost okolo 30%, učící algoritmy měly přesnost mezi 40 a 50 Klíčová slova: Webové stránky extrakce data 1
Keywords:
data collection; data extraction; experimental work; Web browser plugin; Web Semantisation; experimentální práce; extrakce dat; prohlížečový plugin; sběr dat; Sémantizace webu
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/78411