Original title:
Extrakce textových dat z internetových stránek
Translated title:
Extracting text data from the webpages
Authors:
Troják, David ; Morský, Ondřej (referee) ; Červenec, Radek (advisor) Document type: Bachelor's theses
Year:
2012
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií Abstract:
[cze][eng]
Tato práce se zabývá dolováním textových údajů z webových stránek, přehledem možných programů a způsoby extrakce textu. Součástí je program, vytvořený v programovacím jazyku Java, který umožňuje získávat textová data z konkrétních webových stránek a ukládat je do xml souboru.
This work deals with text mining from web pages, an overview of available programs and its methods of text extraction. Part of this work is the program created in Java language, which allows text to obtain data from specific web pages and save them into XML file.
Keywords:
Information extraction; problems with extraction data; text mining from Web pages; the Java program; wrapper; Extrakce informací; Java program; problémy při extrakci dat; wrappery; získání textových dat z webu
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/9845