Original title:
Multi-label klasifikace textových dokumentů
Translated title:
Multi-Label Classification of Text Documents
Authors:
Průša, Petr ; Očenášek, Pavel (referee) ; Bartík, Vladimír (advisor) Document type: Master’s theses
Year:
2012
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Diplomová práce se zabývá automatickou klasifikací textových dokumentů. Jsou zde vysvětleny základní pojmy a problémy dolování z textu. Práce vysvětluje pojem shlukování a ukazuje několik základních algoritmů shlukování. Je zde ukázáno i několik metod klasifikace a podrobně je rozebrána vybraná metoda matrix regression. Dále byla navrhnuta a implementována aplikace používající ke klasifikaci matrix regression. Provedené experimenty byly zaměřeny na normalizaci a prahování.
The master's thesis deals with automatic classifi cation of text document. It explains basic terms and problems of text mining. The thesis explains term clustering and shows some basic clustering algoritms. The thesis also shows some methods of classi fication and deals with matrix regression closely. Application using matrix regression for classifi cation was designed and developed. Experiments were focused on normalization and thresholding.
Keywords:
classification; clustering; Data mining; machine learning; matrix regression; normalization; text document; text mining; TF-IDF.; thresholding; Dolování z dat; dolování z textu; klasifikace; matrix regression; normalizace; prahování; shlukování; strojové učení; textový dokument; TF-IDF.
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/187635