Original title:
Segmentace webových stránek s využitím shlukování
Translated title:
Web Page Segmentation Algorithms Based on Clustering
Authors:
Lengál, Tomáš ; Bartík, Vladimír (referee) ; Burget, Radek (advisor) Document type: Master’s theses
Year:
2017
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Tato zpráva se zabývá segmentací webových stránek, jež je důležitou součástí oboru extrakce informací. V první části popisujeme několik obecných způsobů jak se dá implementovat. Následně je pak představena metoda Box Clustering Segmentation, ktrerá přichází s mírně odlišným přístupem k segmentaci. V druhé polovině práce je pak popsána implementace této metody v rámci nástroje FITLayout a závěrečné testování.
This report deals with segmentation of web pages, which is important discipline of information extraction. In the first part, we describe several general ways to implement it. After that we introduce method Box Clustering Segmentation, which comes with a slightly different approach towards segmentation. In the second half, we describe implementation of this method as a part of framework FITLayout and final testing.
Keywords:
Box Clustering Segmentation algorithm; FITLayout framework; information extraction; Web page segmemntation; algoritmus Box Clustering Segmentation; extrakce informací; framework FITLayout; Segmentace webových stránek
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/69561