Název:
Extrakce dat z webu
Překlad názvu:
Web Data Extraction
Autoři:
Novella, Tomáš ; Holubová, Irena (vedoucí práce) ; Polák, Marek (oponent) Typ dokumentu: Diplomové práce
Rok:
2016
Jazyk:
eng
Abstrakt: [eng][cze] Creation of web wrappers (i.e programs that extract data from the web) is a subject of study in the field of web data extraction. Designing a domain-specific language for a web wrapper is a challenging task, because it introduces trade-offs between expressiveness of a wrapper's language and safety. In addition, little attention has been paid to execution of a wrapper in restricted environment. In this thesis, we present a new wrapping language -- Serrano -- that has three goals in mind. (1) Ability to run in restricted environment, such as a browser extension, (2) extensibility, to balance the tradeoffs between expressiveness of a command set and safety, and (3) processing capabilities, to eliminate the need for additional programs to clean the extracted data. Serrano has been successfully deployed in a number of projects and provided encouraging results. Powered by TCPDF (www.tcpdf.org)Vytváranie webových wrapperov (programov na extrahovanie dát z webu) je predmetom štúdia oboru web data extraction. Navrhnúť špeciálny jazyk na vytváranie wrapperov je náročná úloha, pretože nás núti vytvárať kompromisy medzi expresivitou jazyka a jeho bezpečnostným aspektom. Navyše, málo wrapperov sa zameriava na spúštanie v obmedzenom prostredí. V tejto diplomovej práci predstavujeme nový jazyk na vytváranie wrapperov - Serrano - u ktorého sme sa sústredili na tri veci. (1) Schopnosť spúštania v obmedzenom prostredí, ako je napríklad doplnok do webového prehliadača (2) rozšíriteľnosť, aby sme si mohli prispôsobiť silu jazyka potrebám jeho aplikácie a (3) schopnosti post-processingu extrahovaných dát, aby sme odstránili nutnosť použitia ďalších programov na následné prečistenie a úpravu dát . Serrano bolo úspešne použité v celej rade projektov a dosiahlo sľubné výsledky. Powered by TCPDF (www.tcpdf.org)
Klíčová slova:
omezené prostředí; rozšíření webového prohlížeče; systém na extrakci dat z webu; webový wrapper; restricted environment; safe execution; web browser extension; web data extraction system; web wrapper