Název:
Interaktivní procházení webu a extrakce dat
Překlad názvu:
Interactive web crawling and data extraction
Autoři:
Fejfar, Petr ; Ježek, Pavel (vedoucí práce) ; Nečaský, Martin (oponent) Typ dokumentu: Diplomové práce
Rok:
2018
Jazyk:
eng
Abstrakt: [eng][cze] Title: Interactive crawling and data extraction Author: Bc. Petr Fejfar Author's e-mail address: pfejfar@gmail.com Department: Department of Distributed and Dependable Systems Supervisor: Mgr. Pavel Je ek, Ph.D., Department of Distributed and De- pendable Systems Abstract: The subject of this thesis is Web crawling and data extraction from Rich Internet Applications (RIA). The thesis starts with analysis of modern Web pages along with techniques used for crawling and data extraction. Based on this analysis, we designed a tool which crawls RIAs according to the instructions defined by the user via graphic interface. In contrast with other currently popular tools for RIAs, our solution is targeted at users with no programming experience, including business and analyst users. The designed solution itself is implemented in form of RIA, using the Web- Driver protocol to automate multiple browsers according to user-defined instructions. Our tool allows the user to inspect browser sessions by dis- playing pages that are being crawled simultaneously. This feature enables the user to troubleshoot the crawlers. The outcome of this thesis is a fully design and implemented tool enabling business user to extract data from the RIAs. This opens new opportunities for this type of user to collect data from Web pages for use...Název práce: Interaktivní procházení webu a extrakce dat Autor: Bc. Petr Fejfar E-mailová adresa autora: pfejfar@gmail.com Katedra: Katedra distribuovan˝ch a spolehliv˝ch systémů Vedoucí práce: Mgr. Pavel Je ek, Ph.D., Katedra distribuovan˝ch a spoleh- liv˝ch systémů Abstrakt: Tato práce se zaměřuje na problematiku automatického procháze- ní stránek a extrakce dat v kontextu moderních webov˝ch aplikací, obsahu- jících vysoké mno ství aplikační logiky implementované v prohlí eči pomocí JavaScriptu. V práci je provedena anal˝za moderních webov˝ch stránek, spolu s tech- nikami, které jsou be ně pou ívany k extrakci dat. Na základě této anal˝zy jsme navrhli nástroj, kter˝ moderní webové stránky prochází na základě instrukcí zadan˝ch u ivatelem pomocí grafického prostředí. Narozdíl od ostatních nástrojů na procházení a extrakci dat z moderních webov˝ch strá- nek, náö nástroj umo nuje práci u ivatelům, kteří nemají zkuöenosti s pro- gramováním. Navhrhovan˝ nástroj je implementován jako webová aplikace a vyu ívá pro- tokolu WebDriver pro automatizaci více prohl ečů pro procházení a extrakci dat z webov˝ch stránek pomocí u ivatelem definovan˝ch posloupností in- strukcí. Náö nástroj umo ňuje u ivateli prozkoumat aktuální stav prohlí eče extrahujícího data zobrazením aktuálně prochazené stránky. Toto...
Klíčová slova:
AJAX; browser automation; RIA; Rich Internet Application; Web crawling; Web data extraction; Web scraping; AJAX; browser automation; RIA; Rich Internet Application; Web crawling; Web data extraction; Web scraping