Original title:
Automatizováné zpracování webových stránek vyžadujících JavaScript
Translated title:
Automated Processing of Websites Requiring JavaScript
Authors:
Norek, Karel ; Pluskal, Jan (referee) ; Dolejška, Daniel (advisor) Document type: Bachelor's theses
Year:
2023
Language:
eng Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[eng][cze]
Tato práce je zaměřena na automatizované zpracování dynamických webových stránek vyžadujících JavaScript. Pro tento záměr byl vytvořen scraper, který za pomocí konfiguračního souboru, obsahující sekvenci příkazů, ovládá webovou stránku použitím Selenia a extrahuje požadovaná data a ukládá je do databáze. Tento nástroj umožňuje sestavit komplexní sekvenci kroků simulující aktivitu uživatele na webových stránkách, především na stránkách využívajících JavaScript. Pro scraper byla také vytvořena webová aplikace umožňující vytváření konfiguračních souborů, spouštění scraperu a kontrolu dat v databázi. Výsledné řešení poskytuje správné výsledky při zpracování dat z dynamických stránek a jejich zobrazení ve webové aplikaci. Přínosem této práce je možnost zpracovat jakoukoliv webovou stránku a uchovat její data.
This thesis focuses on the automated processing of websites requiring JavaScript. For this purpose, a scraper was created. The Scraper uses a configuration file containing a sequence of commands. These commands control a website using Selenium commands, extract wanted data, and store them in a database. This tool allows for building a complex flow on websites simulating user activity, mainly on websites using JavaScript. A web application for the scraper was also created, allowing configuration files to be created, running the scraper, and viewing data from the database. The solution provides correct results when processing data from dynamic websites and allows them to be shown in the web application. The benefit of this thesis is the option to process any website and store its data.
Keywords:
automatické zpracování webových stránek; Blazor web app; Dynamická extrakce dat z webu; Selenium; WebDriver; automated web processing; Blazor web app; Dynamic web scraping; Selenium; WebDriver
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/213746