Název:
Extrakce textových dat z internetových stránek
Překlad názvu:
Extracting text data from the webpages
Autoři:
Troják, David ; Morský, Ondřej (oponent) ; Červenec, Radek (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2012
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstrakt: [cze][eng]
Tato práce se zabývá dolováním textových údajů z webových stránek, přehledem možných programů a způsoby extrakce textu. Součástí je program, vytvořený v programovacím jazyku Java, který umožňuje získávat textová data z konkrétních webových stránek a ukládat je do xml souboru.
This work deals with text mining from web pages, an overview of available programs and its methods of text extraction. Part of this work is the program created in Java language, which allows text to obtain data from specific web pages and save them into XML file.
Klíčová slova:
Extrakce informací; Java program; problémy při extrakci dat; wrappery; získání textových dat z webu; Information extraction; problems with extraction data; text mining from Web pages; the Java program; wrapper
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/9845