Original title:
Implementace algoritmu pro vizuální segmentaci www stránek
Translated title:
Implementation of Algorithm for Visual Web Page Segmentation
Authors:
Popela, Tomáš ; Burget, Radek (referee) ; Zelený, Jan (advisor) Document type: Master’s theses
Year:
2012
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Segmentace WWW stránek, neboli dělení stránky na různé sémantické bloky, je jedna z disciplín techniky extrakce informací. Diplomová práce se zabývá metodou Vision-based Page Segmentation - VIPS, která spočívá v dělení stránky na základě vizuálních vlastností prvků stránky. Metoda je uvedena v kontextu dalších význačných segmentačních postupů. V práci jsou popsány a na příkladech ukázány nejdležitější kroky, ze kterých se tato metodika skládá. Pro metodu VIPS je nezbytná spolupráce s vykreslovacím jádrem WWW stránek, z důvodu získání DOM stromu stránky. V práci jsou představeny a popsány čtyři nejvýznačnější enginy pro programovací jazyk Java. Výstupem této práce je implementace algoritmu VIPS právě v jazyce Java s využitím jádra CSSBox. Dále je představena původní implementace algoritmu z laboratoří firmy Microsoft. Popsány jsou jednotlivé etapy vývoje knihovny realizující metodu VIPS a vlastního přístupu k jejímu řešení. Výsledek práce je v závěru demonstrován při segmentaci několika internetových stránek.
Segmentation of WWW pages or page division on di erent semantics blocks is one of the disciplines of information extraction. Master's thesis deals with Vision-based Page Segmentation - VIPS method, which consist in division based on visual properties of page's elements. The method is given in context of other prominent segmentation procedures. In this work, the key steps, that this method consist of are shown and described on examples. For VIPS method it is necessary to cooperate with WWW pages rendering engine in order to obtain Document Object Model of page. The paper presents and describes four most important engines for Java programming language. The output of this work is implementation of VIPS algorithm just in Java language with usage of CSSBox core. The original algorithm implementation from Microsoft's labs is presented. The di erent development stages of library implementing VIPS method and my approach to it's solution are described. In the end of this work the work's outcome is demonstrated on several pages segmentation.
Keywords:
CSSBox; Document Object Model; Java; Linux; Segmentation; Vision-based Page Segmentation; WWW; CSSBox; Document Object Model; Java; Linux; Segmentace; Vision-based Page Segmentation; WWW
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/53735