Název:
Nástroj pro automatické kategorizování webových stránek
Překlad názvu:
Automated Web Page Categorization Tool
Autoři:
Lat, Radek ; Bartík, Vladimír (oponent) ; Malčík, Dominik (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2014
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [eng][cze]
Tato diplomová práce popisuje návrh a implementaci nástroje pro automatickou kategorizaci webových stránek. Cílem nástroje je aby byl schopen se z ukázkových webových stránek naučit, jak každá kategorie vypadá. Poté by měl nástroj zvládnout přiřadit naučené kategorie k dříve nespatřeným webovým stránkám. Nástroj by měl podporovat více kategorií a jazyků. Pro vývoj nástroje byly použity pokročilé techniky strojového učení, detekce jazyků a dolování dat. Nástroj je založen na open source knihovnách a je napsán v jazyce Python 3.3.
This master's thesis describes the design and implementation of a tool for automated web pages categorization. The goal of this tool is to be able to learn from given sample web pages how each category looks like. Later, it should manage to assign these categories to previously unseen web pages. The tool should support multiple categories and languages. Advanced machine learning, language detection, and data mining techniques were used for the development of this tool. It is based on open source libraries and it is written in Python 3.3.
Klíčová slova:
categorization; crawler; language detection; machine learning; python; SVM; web; crawler; detekce jazyků; kategorizace; python; robot; strojové učení; SVM; web
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/53297