Název:
Klasifikace dokumentů podle tématu
Překlad názvu:
Document Classification
Autoři:
Marek, Tomáš ; Škoda, Petr (oponent) ; Otrusina, Lubomír (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2013
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Tato práce se zabývá problematikou klasifikace textových dokumentů, a to především metodami klasifikace textu. Hlavním cílem této práce je rozebrat dva algoritmy pro klasifikaci dokumentů, implementovat je a následně porovnat. Byl zvoleny algoritmy Bayesovského klasifikátoru a klasifikátoru založeného na metodě support vector machines (SVM), které jsou v této práci podrobně analyzovány a popsány. Jedním z cílů této práce bylo optimálně vytvořit a vybrat příznaky, které by co nejvíce napomohly klasifikaci textu. V závěru práce je provedeno množství testů, ukazujících účinnost obou klasifikátorů za různých podmínek.
This thesis deals with a document classification, especially with a text classification method. Main goal of this thesis is to analyze two arbitrary document classification algorithms to describe them and to create an implementation of those algorithms. Chosen algorithms are Bayes classifier and classifier based on support vector machines (SVM) which were analyzed and implemented in the practical part of this thesis. One of the main goals of this thesis is to create and choose optimal text features, which are describing the input text best and thus lead to the best classification results. At the end of this thesis there is a bunch of tests showing comparison of efficiency of the chosen classifiers under various conditions.
Klíčová slova:
Bayesovský klasifikátor; Bayesovský teorém; jaderné metody; klasifikace; klasifikace přirozeného jazyka; příznaky; simulované žíhání; strojové učení; SVM; SVM klasifikátor; volba parametrů SVM; zpracování přirozeného jazyka; Bayes classifier; Bayes' theorem; choosing SVM classifier parameters; classification; features; kernel methods; machine learning; natural language classification; natural language processing; simulated annealing; SVM; SVM classifier
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/53401