Original title:
Návrh aplikace pro automatizovanou extrakci atributů produktů webů
Translated title:
Design of application for automated extraction of products attributes from Web sites
Authors:
CHVOSTOVÁ, Petra Document type: Master’s theses
Year:
2022
Language:
cze Abstract:
[cze][eng] Tato diplomová práce se zabývá takzvaným web scrapingem, specificky ukazuje možnou cestu, jak extrahovat data produktů z webu a webových stránek na zvoleném příkladu. Teoretická část se věnuje popisu webu a jeho zdrojového kódu. Aby bylo možné stahovat data, je nejdříve potřeba těmto informacím rozumět. Dále je představeno prostředí jazyka R a některé metody, které jsou následně využity v praktické části při extrakci webu. Praktická část obsahuje postupy (analýzu a návrh) pro tvorbu nástroje využívaného ke stažení. Z konkrétního e-shopu jsou stažena data, u kterých je zkontrolována jejich úspěšnost extrahování. Poslední část je věnována porovnání funkčnosti vytvořeného nástroje na jiném e-shopu.This thesis deals with the so-called web scraping, specifically showing a possible way to extract product data from the web and web pages on a chosen example. The theoretical part is devoted to the description of the website and its source code. In order to download data, you first need to understand these information. Next, the R language environment and some methods, which are subsequently used in the practical part during web extraction, are introduced. The practical part contains procedures (analysis and design) for the creation of the tool used for scraping. Data is downloaded from a specific e-shop, and its extraction success is checked. The last part is dedicated to comparing the functionality of the created tool on another e-shop.
Keywords:
dynamic website; extraction; product attributes; RSelenium; Web scraping; atributy produktu; dynamický web; extrakce; RSelenium; web scraping Citation: CHVOSTOVÁ, Petra. Návrh aplikace pro automatizovanou extrakci atributů produktů webů. České Budějovice, 2022. diplomová práce (Ing.). JIHOČESKÁ UNIVERZITA V ČESKÝCH BUDĚJOVICÍCH. Ekonomická fakulta
Institution: University of South Bohemia in České Budějovice
(web)
Document availability information: Fulltext is available in the Digital Repository of University of South Bohemia. Original record: http://www.jcu.cz/vskp/57496