Original title:
Nástroj pro extrakci textu z www stránky
Translated title:
Tool for Extraction of Text from Web Pages
Authors:
Pohlídal, Michal ; Burget, Radek (referee) ; Bartík, Vladimír (advisor) Document type: Bachelor's theses
Year:
2009
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Tato bakalářská práce se zabývá možnostmi extrakce textu z webových stránek a jeho následným uložením do databázového systému MySQL. Jsou zde popsány jazyky a nástroje pro tvorbu webových stránek a vysvětleny rozdíly v extrakci textu z jednotlivých typů stránek. Dále je v práci zmíněn návrh a implementace vytvořeného nástroje v jazyce Java a jeho srovnání s ostatními dostupnými nástroji.
This bachelor thesis deals with the possibilities of text extraction from web pages and its subsequent deposit in the MySQL database system. Next, languages and tools for creating web pages are described and the differences in the extraction of text from the various types of pages are explained. Design and implementation of tool in Java language and its comparison with other available tools are also mentioned.
Keywords:
ASP; ASP.NET; CGI; database; dynamic pages; Flash; HTML; Java; JavaScript; MySQL; PHP; static pages; statistic; WWW; XHTML; ASP; ASP.NET; CGI; databáze; dynamické stránky; Flash; HTML; Java; JavaScript; MySQL; PHP; statické stránky; statistika; WWW; XHTML
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/54452