Original title:
Metody klasifikace webových stránek
Translated title:
Methods of Web Page Classification
Authors:
Nachtnebl, Viktor ; Burget, Radek (referee) ; Bartík, Vladimír (advisor) Document type: Master’s theses
Year:
2012
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Tato práce se zabývá metodami klasifikace webových stránek. Vysvětluje pojem klasifikace a popisuje různé vlastnosti stránek využívané pro jejich klasifikaci. Dále rozebírá reprezentaci stránky a podrobným způsobem je popsána klasifikační metoda, která pracuje s hierarchickým modelem kategorií a je schopna dynamicky vytvářet nové kategorie. Ve své druhé polovině se věnuje implementaci zvolené metody a výsledkům, které popisuje.
This work deals with methods of web page classification. It explains the concept of classification and different features of web pages used for their classification. Further it analyses representation of a page and in detail describes classification method that deals with hierarchical category model and is able to dynamically create new categories. In the second half it shows implementation of chosen method and describes the results.
Keywords:
category hierarchy; Classification; document representation; feature propagation.; feature selection; TF-IDF; web page classification; hierarchie kategorií; Klasifikace; klasifikace webových stránek; propagace vlastnosti.; reprezentace dokumentu; TF-IDF; výběr vlastností
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/53698