Original title:
Klasifikační framework
Translated title:
Classification Framework
Authors:
Koroncziová, Dominika ; Otrusina, Lubomír (referee) ; Kouřil, Jan (advisor) Document type: Bachelor's theses
Year:
2014
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Cílem této práce je návrh a implementace klasifikačního software postaveného na knihovně RapidMiner. Výsledná aplikace bude sdružovat nejpoužívanější algoritmy a procesy implementované v RapidMineru do jednoduchého použitelného programu. Součástí nároků na aplikaci je jednoduché rozhraní pro ovládání z příkazové řádky, stejně jako grafické rozhraní zjednodušující nastavení více parametrů. Aplikace má také umožňovat tvorbu samostatných jednoúčelových programů, sloužících na opakovanou klasifikaci s použitím předem natrénovaného modelu. Nad rámec původního zadání je implementována i práce s textovými daty z Wikipedie, jejich stáhnutí a předzpracování a následné použití jako trénovacích dat. Text práce se zabývá postupně jednotlivými algoritmy a popisem kvalifikačních algoritmů, jejich vlastnostmi a použitím, a popisuje návrh a implementaci systému. V rámci práce byla vykonána i sada několika testů pro ověření výkonu a funkcionality aplikace. Jejich výsledky jsou shrnuty v závěru práce.
The goal of this work is the design and implementation of a machine learning software, based on the RapidMiner library. The finished application integrates the most commonly used algorithms and processes implemented in RapidMiner into an easily usable program. The application contains a simple command line interface, as well as a graphic interface to simplify selection of multiple parameters. The program also provides a tool to create standalone programs, that can be used for classification with a pre-trained model. On top of the original requirements the possibility to work with textual data from Wikipedia was also implemented, providing a tool for downloading and preprocessing of the data in order to use them as training input. This text focuses on the specifics of the algorithms and classifiers used and on their features and uses, and describes the design and implementation of the system. As part of this work, several tests were run in order to validate the efficiency and functionality of the program. The test results are included at the end of the thesis.
Keywords:
classifiers; cross-validation; Java; k-nearest neighbors; machine learning; Naive Bayes; neural networks; RapidMiner; SVM; Swing; text processing; tf-idf; Java; k-najbližších susedov; klasifikátory; krížová validácia; Naive Bayes; neurónové siete; RapidMiner; spracovanie textov; strojové učenie; SVM; Swing; tf-idf
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/56488