Název:
Algoritmus pro detekci pozitívního a negatívního textu
Překlad názvu:
The algorithm for the detection of positive and negative text
Autoři:
Musil, David ; Harár, Pavol (oponent) ; Povoda, Lukáš (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2016
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstrakt: [cze][eng]
Se svižným vývojem informačních a komunikačních technologií vzrůstá i množství informací produkovaných nejrůznějšími zdroji v elektronické podobě. Třídění a získávání znalostí z těchto dat vyžaduje značné úsilí, které pro člověka není snadné zajistit, do popředí se tedy dostává zpracování strojem. Dolování emocí z textových dat je zajímavou oblastí výzkumu, zažívající v posledních letech nezanedbatelný rozmach, přičemž nachází široké uplatnění. V rámci této diplomové práce byl vytvořen systém sloužící k detekci pozitivní a negativní emoce z textu, dále je provedeno zhodnocení jeho úspěšnosti. Systém je navržen v jazyce Java a je koncipován pro umožnění jeho trénování pomocí velkých objemů dat (Big Data) s využitím knihovny Spark. V práci je popsána struktura a zacházení s textem z databázi, ze které systém čerpá vstupní data. Samotný model klasifikátoru je pak vytvořen za pomoci algoritmu podpůrných vektorů (SVM), přičemž je optimalizován metodou n-gramů.
As information and communication technology develops swiftly, amount of information produced by various sources grows as well. Sorting and obtaining knowledge from this data requires significant effort which is not ensured easily by a human, meaning machine processing is taking place. Acquiring emotion from text data is an interesting area of research and it’s going through considerable expansion while being used widely. Purpose of this thesis is to create a system for positive and negative emotion detection from text along with evaluation of its performance. System was created with Java programming language and it allows training with use of large amount of data (known as Big Data), exploiting Spark library. Thesis describes structure and handling text from database used as source of input data. Classificator model was created with use of Support Vector Machines and optimized by the n-grams method.
Klíčová slova:
Big Data; Emoce; Java; n-gramy; Spark; text-mining; umělá inteligence; artificial intelligence; Big Data; Emotions; Java; n-grams; Spark; text-mining
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/59802