Original title:
Nástroje pro archivaci webových stránek
Translated title:
Web Page Archiving Tools
Authors:
Kvačkaj, Matúš ; Rychlý, Marek (referee) ; Burget, Radek (advisor) Document type: Bachelor's theses
Year:
2023
Language:
slo Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[slo][eng]
Táto bakalárska práca sa zaoberá problematikou archivácie a reprodukcie webových stránok. Cieľom bolo priniesť nástroj, ktorý po zadaní URL adresy a parametrov vytvorí archív vo formáte WARC danej stránky a tiež vygeneruje jej textový popis, vhodný pre ďalšie spracovanie a analýzu. Nástroj podporuje aj opačný proces - prehratie webu z WARC archívu a vygenerovanie obdobného textového popisu stránky. Pri implementácií nástroja bolo myslené na to, že bude aplikovaný na existujej dátovej sade a bude súčasťou hromadného spracovania dát. Využila sa dátová sada Webis-Web-Archive-17, ktorá obsahuje približne 10 000 WARC archívov zozbieraných od roku 2017. Pre zabezpečenie maximálnej prenositeľnosti nástroja bola využitá kontajnerizácia nástrojom Docker.
This bachelor thesis deals with the issue of archiving and reproduction of web pages. The aim was to provide a tool that, after specifying the URL and parameters, creates an archive in WARC format of a given page and also generates its textual description, suitable for further processing and analysis. The tool also supports the reverse process - replaying a site from a WARC archive and generating a textual description of the page. When implementing the tool, it was intended that it would be applied to an existing dataset and would be part of a bulk data processing. The Webis-Web-Archive-17 dataset was used, which contains approximately 10,000 WARC archives collected since 2017. To ensure maximum portability of the tool, Docker containerization was used.
Keywords:
containerization; docker; playwright; replayability of web archives; web archiving; web browser automation; web data extraction
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/210446