Název:
Analýza textových používateľských hodnotení vybranej skupiny produktov
Autoři:
Valovič, Roman Typ dokumentu: Diplomové práce
Rok:
2019
Jazyk:
slo
Abstrakt: [cze][eng] Tato práce se zaměřuje na návrh systému, který v textových recenzích produktů identifikuje často diskutované vlastnosti produktů, sumarizuje je a s ohledem na sentiment v přehledné formě zobrazí uživateli. V práci je rozebrána problematika zpracování přirozeného jazyka, se specifickým zaměřením na češtinu. Čtenář je kromě jiného seznámen s metodami preprocessingu textu a jejich vlivu na kvalitu výsledků analýzy. Samotná identifikace diskutovaných vlastností probíhá primárně za pomoci shlukové analýzy s využitím algoritmu K-Means, kde předpokládáme, že dostatečně vnitřně homogenní shluky budou představovat jednotlivé vlastnosti produktů. Novou oblastí, která bude v této práci prozkoumána, je reprezentace dokumentů pomocí techniky Word embeddings a z ní vyplývající možnosti využití vektorového prostoru jako vstupu pro algoritmy strojového učení.This work focuses on the design of a system that identifies frequently discussed product features in product reviews, summarizes them, and displays them to the user in terms of sentiment. The work deals with the issue of natural language processing, with a specific focus on Czech languague. The reader will be introduced the methods of preprocessing the text and their impact on the quality of the analysis results. The identification of the mainly discussed products features is carried out by cluster analysis using the K-Means algorithm, where we assume that sufficiently internally homogeneous clusters will represent the individual features of the products. A new area that will be explored in this work is the representation of documents using the Word embeddings technique, and its potential of using vector space as input for machine learning algorithms.
Klíčová slova:
k-means; klasifikace textu; NLP; shluková analýza; strojové učení; sumarizace; text mining; word embeddings; word2vec