Original title:
Nové metody segmentace webových stránek
Translated title:
New Web Page Segmentation Methods
Authors:
Malaník, Michal ; Bartík, Vladimír (referee) ; Burget, Radek (advisor) Document type: Master’s theses
Year:
2016
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Cílem této práce je představit novou metodu segmentace webových stránek založenou na analýze vizuálních vlastností webových dokumentů. Metoda vychází z velmi populárního segmentačního algoritmu VIPS (Vision Based Page Segmentation Algorithm), který se snaží na segmentovaný dokument nahlížet stejně, jako ho ve výsledku vidí jeho uživatel, tedy prostřednictvím vizuální reprezentace v internetovém prohlížeči. Oproti algoritmu VIPS jsou však u metody představené v této práci brány v úvahu optimalizace pro moderní webové stránky, především poté pro dokumenty vytvořené v jazyce HTML verze 5. Práce se rovněž zabývá implementací navržené metody pomocí rámce FITLayout.
The aim of this work is to introduce a new vision based web page segmentation method. This method is based on very popular VIPS segmentation algorithm, which is trying to represent the segmented web document in the same way as it is perceived by a user using a web browser. Compared to the VIPS algorithm, there are some optimizations for modern websites in our method, especially for documents created in the HTML 5 language. We also deal with the implementaion of the proposed method using the FITLayout framework.
Keywords:
FITLayout framework; VIPS algorithm; web page analysis; Web page segmentation; algoritmus VIPS; analýza webových stránek; FITLayout rámec; Segmentace webových stránek
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/61946