Název:
Nástroje pro archivaci webových stránek
Překlad názvu:
Web Page Archiving Tools
Autoři:
Kvačkaj, Matúš ; Rychlý, Marek (oponent) ; Burget, Radek (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2023
Jazyk:
slo
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [slo][eng]
Táto bakalárska práca sa zaoberá problematikou archivácie a reprodukcie webových stránok. Cieľom bolo priniesť nástroj, ktorý po zadaní URL adresy a parametrov vytvorí archív vo formáte WARC danej stránky a tiež vygeneruje jej textový popis, vhodný pre ďalšie spracovanie a analýzu. Nástroj podporuje aj opačný proces - prehratie webu z WARC archívu a vygenerovanie obdobného textového popisu stránky. Pri implementácií nástroja bolo myslené na to, že bude aplikovaný na existujej dátovej sade a bude súčasťou hromadného spracovania dát. Využila sa dátová sada Webis-Web-Archive-17, ktorá obsahuje približne 10 000 WARC archívov zozbieraných od roku 2017. Pre zabezpečenie maximálnej prenositeľnosti nástroja bola využitá kontajnerizácia nástrojom Docker.
This bachelor thesis deals with the issue of archiving and reproduction of web pages. The aim was to provide a tool that, after specifying the URL and parameters, creates an archive in WARC format of a given page and also generates its textual description, suitable for further processing and analysis. The tool also supports the reverse process - replaying a site from a WARC archive and generating a textual description of the page. When implementing the tool, it was intended that it would be applied to an existing dataset and would be part of a bulk data processing. The Webis-Web-Archive-17 dataset was used, which contains approximately 10,000 WARC archives collected since 2017. To ensure maximum portability of the tool, Docker containerization was used.
Klíčová slova:
containerization; docker; playwright; replayability of web archives; web archiving; web browser automation; web data extraction
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/210446