Original title:
Algoritmus pro detekci pozitívního a negatívního textu
Translated title:
The algorithm for the detection of positive and negative text
Authors:
Musil, David ; Harár, Pavol (referee) ; Povoda, Lukáš (advisor) Document type: Master’s theses
Year:
2016
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií Abstract:
[cze][eng]
Se svižným vývojem informačních a komunikačních technologií vzrůstá i množství informací produkovaných nejrůznějšími zdroji v elektronické podobě. Třídění a získávání znalostí z těchto dat vyžaduje značné úsilí, které pro člověka není snadné zajistit, do popředí se tedy dostává zpracování strojem. Dolování emocí z textových dat je zajímavou oblastí výzkumu, zažívající v posledních letech nezanedbatelný rozmach, přičemž nachází široké uplatnění. V rámci této diplomové práce byl vytvořen systém sloužící k detekci pozitivní a negativní emoce z textu, dále je provedeno zhodnocení jeho úspěšnosti. Systém je navržen v jazyce Java a je koncipován pro umožnění jeho trénování pomocí velkých objemů dat (Big Data) s využitím knihovny Spark. V práci je popsána struktura a zacházení s textem z databázi, ze které systém čerpá vstupní data. Samotný model klasifikátoru je pak vytvořen za pomoci algoritmu podpůrných vektorů (SVM), přičemž je optimalizován metodou n-gramů.
As information and communication technology develops swiftly, amount of information produced by various sources grows as well. Sorting and obtaining knowledge from this data requires significant effort which is not ensured easily by a human, meaning machine processing is taking place. Acquiring emotion from text data is an interesting area of research and it’s going through considerable expansion while being used widely. Purpose of this thesis is to create a system for positive and negative emotion detection from text along with evaluation of its performance. System was created with Java programming language and it allows training with use of large amount of data (known as Big Data), exploiting Spark library. Thesis describes structure and handling text from database used as source of input data. Classificator model was created with use of Support Vector Machines and optimized by the n-grams method.
Keywords:
artificial intelligence; Big Data; Emotions; Java; n-grams; Spark; text-mining; Big Data; Emoce; Java; n-gramy; Spark; text-mining; umělá inteligence
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/59802