Original title:
Automatizované zhromažďovanie a štrukturalizácia dát z webových zdrojov
Authors:
Zahradník, Roman Document type: Master’s theses
Year:
2018
Language:
slo Abstract:
[cze][eng] Diplomová práce se zabývá vytvářením řešení pro průběžné získávání dat z webových zdrojů. Aplikace má na starosti automatické přecházení webových stránek, extrakci dat pomocí určených selektorů a jejich následnou normalizaci pro další zpracování pro dolování dat.This diploma thesis deals with the creation of a solution for continuous data acquisition from web sources. The application is in charge of automatically navigating web pages, extracting data using dedicated selectors, and subsequently standardizing them for further processing for data mining.
Keywords:
big data; REST API; SOA; správové fronty; web crawler; získávání dat