Original title:
Klasifikace webových stránek
Translated title:
Web Page Classification
Authors:
Kolář, Roman ; Burget, Radek (referee) ; Bartík, Vladimír (advisor) Document type: Master’s theses
Year:
2008
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Práce se zabývá problematikou automatické klasifikace webových stránek s využitím asociačního klasifikátoru. Je představena klasifikace, jakožto jeden z oborů dolování znalostí z databází; zvláštní prostor je věnován klasifikaci textových dat. Jsou diskutovány různé metody klasifikace textových dokumentů se zdůrazněním výhod klasifikátorů využívajících pro rozhodování asociační pravidla. Cílem práce je pokusit se přizpůsobit vybranou klasifikační metodu pro relační data a navrhnout systém pro klasifikaci webových stránek podle vizuálních vlastností - rozložení jednotlivých oblastí na stránce, nikoliv podle čistého textového obsahu. K tomu je využitý asociační klasifikátor ARC-BC kombinující výhody známých klasifikačních metod.
This paper presents problem of automatic webpages classification using association rules based classifier. Classification problem is presented, as a one of datamining technique, in context of mining knowledges from text data. There are many text document classification methods presented with highlighting benefits of classification methods using association rules. The main goal of work is adjusting selected classification method for relation data and design draft of webpages classifier, which classifies pages with the aid of visual properties - independent section layout on the web page, not (only) by textual data. There is also ARC-BC classification method presented as a selected method and as one of intriguing classificators, that derives accuracy and understandableness benefits of all other methods.
Keywords:
association rule; attribute; category; classification; classificator; confidence; data; datamining; discretization; interval; precission; structure; support; text; Web; asociační pravidlo; atribut; data; diskretizace; dolování znalostí; interval; kategorie; klasifikace; klasifikátor; podpora; přesnost; spolehlivost; struktura; text; Web
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/53234