Original title:
Výběr příznaků pro klasifikaci textu pomocí Naivního Bayovského klasifikátoru
Translated title:
Feature selection for text classification with Naive Bayes
Authors:
Lux, Erik ; Petříčková, Zuzana (advisor) ; Petříček, Martin (referee) Document type: Bachelor's theses
Year:
2012
Language:
eng Abstract:
[eng][cze] The work presents the field of document classification. It describes existing techniques with emphasis on the Naive Bayes' classifier. Several existing feature selection methods suitable for the Naive Bayes' classifier are discussed. This theoretical background is the basis for the implementation of a classification library based on the Naive Bayes' method. Besides the classification program, the library provides a range of document preprocessing tools. They allow to work with different types of documents and, more importantly, they significantly reduce redundant document dimensions. Eventually, we tested the library on two different datasets and compared implemented feature selection methods. The functionality of the whole library is practically verified by including it into the open-source email client Mailpuccino.Tato práce se zabývá výzkumem v oblasti klasifikace dokumentů. Popisuje již existujici techniky s důrazem na Naivní Bayesův klasifikátor. Zmíněny jsou i některé z metod pro výběr příznaků. Teoretické pozadí je základem pro implementaci klasifikační knihovny založené na metodě Naivního Bayesovského klasifikátoru. Knihovna poskytuje kromě samotného klasifikátoru i paletu nástrojů pro předzpracování textu. Tyto nástroje umožňují práci s rozličným typem dokumentů, ale především značně snižují nadbytečné dimenze vstupních dat. Knihovna je testována na dvou různych referenčních datových sadách na kterých jsou diskutovány rozdíly chování jednotlivých metod pro výběr příznaků. Funkčnost celé knihovny je prakticky ověřena jejím začleněním do open-source emailového klienta Mailpuccino.
Keywords:
Feature Selection; Naive Bayes; Text classification; Klasifikace textu; Naivní bayesovský klasifikátor; Výběr příznaků
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/46007