Original title:
Nástroj pro automatické kategorizování webových stránek
Translated title:
Automated Web Page Categorization Tool
Authors:
Lat, Radek ; Bartík, Vladimír (referee) ; Malčík, Dominik (advisor) Document type: Master’s theses
Year:
2014
Language:
eng Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[eng][cze]
Tato diplomová práce popisuje návrh a implementaci nástroje pro automatickou kategorizaci webových stránek. Cílem nástroje je aby byl schopen se z ukázkových webových stránek naučit, jak každá kategorie vypadá. Poté by měl nástroj zvládnout přiřadit naučené kategorie k dříve nespatřeným webovým stránkám. Nástroj by měl podporovat více kategorií a jazyků. Pro vývoj nástroje byly použity pokročilé techniky strojového učení, detekce jazyků a dolování dat. Nástroj je založen na open source knihovnách a je napsán v jazyce Python 3.3.
This master's thesis describes the design and implementation of a tool for automated web pages categorization. The goal of this tool is to be able to learn from given sample web pages how each category looks like. Later, it should manage to assign these categories to previously unseen web pages. The tool should support multiple categories and languages. Advanced machine learning, language detection, and data mining techniques were used for the development of this tool. It is based on open source libraries and it is written in Python 3.3.
Keywords:
crawler; detekce jazyků; kategorizace; python; robot; strojové učení; SVM; web; categorization; crawler; language detection; machine learning; python; SVM; web
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/53297