Original title:
Rozhodovací stromy pro klasifikaci dat
Translated title:
Decision Trees for Classification
Authors:
Čechmánek, Jakub ; Štanclová, Jana (advisor) ; Štefka, David (referee) Document type: Master’s theses
Year:
2008
Language:
cze Abstract:
[cze][eng] K problémům týkajících se klasifikace dat je možné přistupovat různými způsoby. Mezi ty nejvýznamnější patří neuronové sítě, Bayesovské sítě, klastrování, lineární modely, asociační pravidla apod. Tato práce se zabývá rozhodovacími stromy, které si rovněž zaslouží pozornost mezi odbornou veřejností. Postupně budou popsány metody C4.5, CART a SDT stromy, které využívají teorii fuzzy množin. Podstatná část je také věnována ořezávacím algoritmům. Jednotlivé modely budou experimentálně ověřeny a vzájemně srovnány na volně dostupných datových množinách příznakových vektorů s ohledem na ukončovací kritéria, kritéria na dělení uzlu a velikost vzniklých stromů. Součástí experimentů je i zhodnocení vlastních výsledků.There is a lot of approaches for data classification problems resolving. The most significant data classification methods are neural networks, Bayes nets, clustering, linear models, associative rules, etc. This thesis deals with decision trees which deserves attention of experts as well. Step by step are discussed C4.5, CART and SDT trees, a variant of classical decision tree inductive learning using fuzzy sets theory. Substantial part of work is devoted to pruning algorithms as well. Particular methods are examined and compared over freely available data sets of feature vectors with respect to stopping criteria, splitting criteria of a node and size of constructed trees. A summary of our own results is included.
Institution: Charles University Faculties (theses)
(web)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/14848