Original title:
Rozšíření systému pro získávání, zpracování a analýzu rozsáhlých kolekcí textů z webu
Translated title:
Extending System for Acquiring, Processing, and Analysing Large Web Text Collections
Authors:
Matějka, Jiří ; Dytrych, Jaroslav (referee) ; Smrž, Pavel (advisor) Document type: Bachelor's theses
Year:
2018
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Cílem práce je rozšířit stávající systém pro kolekci, stahování, zpracování a analýzu webových stránek. Práce se zabývá automatizací veškeré prováděné činnosti, přináší nové nástroje do stávajícího systému a nabízí nejen nové verze některých nástrojů zapojených do systému zpracování, ale nabízí i nové postupy a myšlenky.
The aim of the thesis is to extend the existing system for collecting, downloading, processing and analyzing web pages. This work deals with the automation of all processes, brings new tools into the existing system and offers new versions of some tools involved in the processing system and also offers new procedures and ideas.
Keywords:
corpus; text analysis; text extraction from HTML code; text in vertical format; web; web pages downloading; analýza textu; extrakce textu z HTML kódu; korpus; stahování webových stránek; vertikální text; web
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/85089