Název:
Segmentace stránky ve webovém prohlížeči
Překlad názvu:
Page Segmentation in a Web Browser
Autoři:
Zubrik, Tomáš ; Polčák, Libor (oponent) ; Burget, Radek (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2021
Jazyk:
slo
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [slo][eng]
Táto práca sa zaoberá segmentáciou webových stránok vo webovom prehliadači. V rámci práce bola vytvorená implementácia metódy Box Clustering Segmentation (BCS) v jazyku JavaScript s využitím automatizovaného prehliadača. Samotná implementácia pozostáva z dvoch hlavných krokov, ktorými sú extrakcia boxov (listových uzlov DOM) z kontextu prehliadača a ich následné zhlukovanie na základe modelu podobnosti definovanom podľa BCS. Výsledkom práce je funkčná implementácia metódy BCS použiteľná na segmentáciu stránok. Vyhodnotenie funkčnosti a presnosti implementácie prebehlo na základe porovnania s referenčnou implementáciou vytvorenou v jazyku Java.
This thesis deals with the web page segmentation in a web browser. The implementation of Box Clustering Segmentation (BCS) method in JavaScript using an automated browser was created. The actual implementation consists of two main steps, which are the box extraction (leaf DOM nodes) from the browser context and their subsequent clustering based on the similarity model defined in BCS. Main result of this thesis is a functional implementation of BCS method usable for web page segmentation. The evaluation of the functionality and accuracy of the implementation is based on a comparison with a reference implementation created in Java.
Klíčová slova:
BCS; Box Clustering Segmentation algorithm; browser automation; clustering; Playwright; similarity model; web page segmentation
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/200136