Original title:
Segmentace stránky ve webovém prohlížeči
Translated title:
Page Segmentation in a Web Browser
Authors:
Zubrik, Tomáš ; Polčák, Libor (referee) ; Burget, Radek (advisor) Document type: Master’s theses
Year:
2021
Language:
slo Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[slo][eng]
Táto práca sa zaoberá segmentáciou webových stránok vo webovom prehliadači. V rámci práce bola vytvorená implementácia metódy Box Clustering Segmentation (BCS) v jazyku JavaScript s využitím automatizovaného prehliadača. Samotná implementácia pozostáva z dvoch hlavných krokov, ktorými sú extrakcia boxov (listových uzlov DOM) z kontextu prehliadača a ich následné zhlukovanie na základe modelu podobnosti definovanom podľa BCS. Výsledkom práce je funkčná implementácia metódy BCS použiteľná na segmentáciu stránok. Vyhodnotenie funkčnosti a presnosti implementácie prebehlo na základe porovnania s referenčnou implementáciou vytvorenou v jazyku Java.
This thesis deals with the web page segmentation in a web browser. The implementation of Box Clustering Segmentation (BCS) method in JavaScript using an automated browser was created. The actual implementation consists of two main steps, which are the box extraction (leaf DOM nodes) from the browser context and their subsequent clustering based on the similarity model defined in BCS. Main result of this thesis is a functional implementation of BCS method usable for web page segmentation. The evaluation of the functionality and accuracy of the implementation is based on a comparison with a reference implementation created in Java.
Keywords:
BCS; Box Clustering Segmentation algorithm; browser automation; clustering; Playwright; similarity model; web page segmentation
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/200136