Original title:
Extrakce dat z webu
Translated title:
Web Data Extraction
Authors:
Novella, Tomáš ; Holubová, Irena (advisor) ; Polák, Marek (referee) Document type: Master’s theses
Year:
2016
Language:
eng Abstract:
[eng][cze] Creation of web wrappers (i.e programs that extract data from the web) is a subject of study in the field of web data extraction. Designing a domain-specific language for a web wrapper is a challenging task, because it introduces trade-offs between expressiveness of a wrapper's language and safety. In addition, little attention has been paid to execution of a wrapper in restricted environment. In this thesis, we present a new wrapping language -- Serrano -- that has three goals in mind. (1) Ability to run in restricted environment, such as a browser extension, (2) extensibility, to balance the tradeoffs between expressiveness of a command set and safety, and (3) processing capabilities, to eliminate the need for additional programs to clean the extracted data. Serrano has been successfully deployed in a number of projects and provided encouraging results. Powered by TCPDF (www.tcpdf.org)Vytváranie webových wrapperov (programov na extrahovanie dát z webu) je predmetom štúdia oboru web data extraction. Navrhnúť špeciálny jazyk na vytváranie wrapperov je náročná úloha, pretože nás núti vytvárať kompromisy medzi expresivitou jazyka a jeho bezpečnostným aspektom. Navyše, málo wrapperov sa zameriava na spúštanie v obmedzenom prostredí. V tejto diplomovej práci predstavujeme nový jazyk na vytváranie wrapperov - Serrano - u ktorého sme sa sústredili na tri veci. (1) Schopnosť spúštania v obmedzenom prostredí, ako je napríklad doplnok do webového prehliadača (2) rozšíriteľnosť, aby sme si mohli prispôsobiť silu jazyka potrebám jeho aplikácie a (3) schopnosti post-processingu extrahovaných dát, aby sme odstránili nutnosť použitia ďalších programov na následné prečistenie a úpravu dát . Serrano bolo úspešne použité v celej rade projektov a dosiahlo sľubné výsledky. Powered by TCPDF (www.tcpdf.org)
Keywords:
restricted environment; safe execution; web browser extension; web data extraction system; web wrapper; omezené prostředí; rozšíření webového prohlížeče; systém na extrakci dat z webu; webový wrapper
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/82947