Název:
Klasifikace webových stránek
Překlad názvu:
Web Page Classification
Autoři:
Kolář, Roman ; Burget, Radek (oponent) ; Bartík, Vladimír (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2008
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Práce se zabývá problematikou automatické klasifikace webových stránek s využitím asociačního klasifikátoru. Je představena klasifikace, jakožto jeden z oborů dolování znalostí z databází; zvláštní prostor je věnován klasifikaci textových dat. Jsou diskutovány různé metody klasifikace textových dokumentů se zdůrazněním výhod klasifikátorů využívajících pro rozhodování asociační pravidla. Cílem práce je pokusit se přizpůsobit vybranou klasifikační metodu pro relační data a navrhnout systém pro klasifikaci webových stránek podle vizuálních vlastností - rozložení jednotlivých oblastí na stránce, nikoliv podle čistého textového obsahu. K tomu je využitý asociační klasifikátor ARC-BC kombinující výhody známých klasifikačních metod.
This paper presents problem of automatic webpages classification using association rules based classifier. Classification problem is presented, as a one of datamining technique, in context of mining knowledges from text data. There are many text document classification methods presented with highlighting benefits of classification methods using association rules. The main goal of work is adjusting selected classification method for relation data and design draft of webpages classifier, which classifies pages with the aid of visual properties - independent section layout on the web page, not (only) by textual data. There is also ARC-BC classification method presented as a selected method and as one of intriguing classificators, that derives accuracy and understandableness benefits of all other methods.
Klíčová slova:
asociační pravidlo; atribut; data; diskretizace; dolování znalostí; interval; kategorie; klasifikace; klasifikátor; podpora; přesnost; spolehlivost; struktura; text; Web; association rule; attribute; category; classification; classificator; confidence; data; datamining; discretization; interval; precission; structure; support; text; Web
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/53234