Original title:
Extrakce dat z dynamických WWW stránek
Translated title:
Data Extraction from Dynamic Web Pages
Authors:
Puna, Petr ; Kunc, Michael (referee) ; Burget, Radek (advisor) Document type: Master’s theses
Year:
2009
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Tato práce obsahuje stručný přehled technologií používaných pro prezentaci a získání dat na WWW a popisuje vybrané nástroje pro extrakci dat z webových stránek. Práce dále navrhuje nový nástroj pro získání stránek, generovaných na základě vyplnění webových formulářů, který umožňuje uživateli definovat data na takovýchto webových stránkách a dokáže takto definovaná data extrahovat a nabídnout ve formátu XML, použitelném pro další strojové zpracování.
This work contains a brief overview of technologies for representation and obtaining data on WWW and describes selected web data extraction tools. The work designs a new tool for obtaining pages generated by filling in web forms, which allows its user to define data on such web pages and which can extract those data and offer it in a XML format suitable for future machine processing.
Keywords:
(X)HTML forms; HTML; HTML Parser; HTTP; Java; JavaScript; JSP; Lixto; WWW; WWW data extraction; XHTML; XML; (X)HTML formuláře; Extrakce dat z WWW; HTML; HTML Parser; HTTP; Java; JavaScript; JSP; Lixto; WWW; XHTML; XML
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/53829