Název:
Rozšíření systému pro získávání, zpracování a analýzu rozsáhlých kolekcí textů z webu
Překlad názvu:
Extending System for Acquiring, Processing, and Analysing Large Web Text Collections
Autoři:
Matějka, Jiří ; Dytrych, Jaroslav (oponent) ; Smrž, Pavel (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2018
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Cílem práce je rozšířit stávající systém pro kolekci, stahování, zpracování a analýzu webových stránek. Práce se zabývá automatizací veškeré prováděné činnosti, přináší nové nástroje do stávajícího systému a nabízí nejen nové verze některých nástrojů zapojených do systému zpracování, ale nabízí i nové postupy a myšlenky.
The aim of the thesis is to extend the existing system for collecting, downloading, processing and analyzing web pages. This work deals with the automation of all processes, brings new tools into the existing system and offers new versions of some tools involved in the processing system and also offers new procedures and ideas.
Klíčová slova:
analýza textu; extrakce textu z HTML kódu; korpus; stahování webových stránek; vertikální text; web; corpus; text analysis; text extraction from HTML code; text in vertical format; web; web pages downloading
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/85089