Original title:
Extrakce textových dat z internetových stránek
Translated title:
Extracting text data from the webpages
Authors:
Mazal, Zdeněk ; Morský, Ondřej (referee) ; Fojtová, Lucie (advisor) Document type: Master’s theses
Year:
2011
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií Abstract:
[cze][eng]
Tato práce se zabývá získávání textových dat z webových stránek, přehledem jednotlivých wrpapperů a způsobů jejich extrakce. Obsahuje i přehled nejpoužívanějších programů pro extrakci dat z internetu. Součástí je program, vytvořený v programovacím jazyku Java, který umožňuje získávat textová data z konkrétních webových stránek a ukládat je do xml souboru.
This work focus at data and especially text mining from Web pages, an overview of programs for downloading the text and ways of their extraction. It also contains an overview of the most frequently used programs for extracting data from internet. The output of this thesis is a Java program that can download text from a selection of servers and save them into xml le.
Keywords:
Information extraction; mining text from Web pages; problems with extraction data; the Java program; wrapper; Extrakce informací; Java program; problémy při extrakci dat; wrappery; získání textových dat z webu.
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/20916