Original title:
Klasifikace dokumentů podle tématu
Translated title:
Document Topic Classification
Authors:
Oravec, Jakub ; Černocký, Jan (referee) ; Smrž, Pavel (advisor) Document type: Bachelor's theses
Year:
2008
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Táto bakalárska práca sa zaoberá automatickou klasifikáciou dokumentov podľa témy a poskytuje stručný úvod do tejto oblasti výskumu. V prvej časti obsahuje prehľad základných postupov používaných v strojovom spracovaní prirodzeného jazyka s dôrazom na metódy klasfikácie textu. V ďalšej časti sa popisuje návrh a implementácia systému pre automatickú klasifikáciu dokumentov podľa témy. Posledná časť obsahuje informácie o testovaní vytvoreného systému vrátane vytvorenia testovacej sady a popisu štandardných metrík.
This bachelor's thesis deals with automatic document topic classification and provides a brief introduction to this area of research. The first part contains summary of basic techniques used in natural language processing with emphasis on text classification methods. The next part describes concept and implementation of system for automatic document topic classification. The last part contains information about testing of created system including composition of testing set and standard metrics description.
Keywords:
document topic classification; metrics; support vector machines; training set; klasifikácia dokumentov podľa témy; metriky; support vector machines; trénovacia sada
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/55401