Název:
Analýza sociálních sítí využitím metod rozpoznání vzoru
Překlad názvu:
Social Network Analysis using methods of pattern recognition
Autoři:
Križan, Viliam ; Burget, Radim (oponent) ; Atassi, Hicham (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2015
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstrakt: [eng][cze]
Diplomová práca sa zaoberá rozpoznávaním emócií z textu v sociálnych sieťach. Práca popisuje súčasné metódy extrakcie príznakov, používané lexikóny, korpusy a klasifikátory. Emócie boli rozpoznávané na základe klasifikátoru, netrénovaného na anotovaných dátach z mikroblogovacej siete Twitter. Výhodou použitia služby Twitter, bolo geografické vymedzenie dát, ktoré umožňuje sledovanie zmien emócií populácie v rôznych mestách. Prvým prístupom klasifikácie bolo vytvorenie Baseline algoritmu, ktorý používal jednoduchý lexikón. Pre zlepšenie klasifikácie sme v druhom bode použili komplexnejší SVM klasifikátor. SVM klasifikátory, extrakcie a selekcie príznakov boli použité z dostupnej Python knižnice Scikit. Dáta pre natrénovanie klasifikátoru boli zhromažďované z oblasti USA, a to s pomocou vytvorenej aplikácie. Klasifikátor bol natrénovaný na dátach, označených pri ich zhromažďovaní - bez manuálnej anotácie. Boli použité dve rôzne implantácie SVM klasifikátorov. Výsledné klasifikované emócie, v rôznych mestách a dňoch, boli zobrazené v podobe farebných značiek na mape.
The diploma thesis deals with emotion recognition from texts on social media. The state-of-the-art methods of feature extraction, corpora and classifiers are described in the first section. Emotions are recognized by a classifier trained on annotated data from the microblog network Twitter. The advantage of using Twitter was the possibility to specify data collection to a certain geographical location. Geographical data allows to monitor emotional variations of population, for e.g. in different cities. The first task was to propose and develop a Baseline algorithm which classifies data to emotional classes. The classification accuracy is improved by employing a more complex SVM classifier. SVM classifiers, feature vectorizers and feature selectors are used from the Scikit library, which is written in Python. The data for classifier training were collected from the USA by the own developed mining application. The classifier are trained on data automatically annotated in the collection process. Two implementations of SVM classifiers are used. Final classified emotions that appear in different cities and in different time intervals are displayed as color markers on a map.
Klíčová slova:
data mining; emotional analysis; emotions; Python; Scikit; social media; SVM; text recognition; tweets; twitter; analýza emócii; data mining; emoce; Python; rozpoznávaní textu; Scikit; sociální sítě; SVM; tweety; twitter
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/39966