Original title:
Interpretation of emotions from text on social media
Translated title:
Interpretation of emotions from text on social media
Authors:
Tlustoš, Vít ; Košař, Vlastimil (referee) ; Malik, Aamir Saeed (advisor) Document type: Master’s theses
Year:
2024
Language:
eng Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[eng][cze]
Většina lidských interakcí probíhá buď prostřednictvím textu, nebo může být na text převedena pomocí speech-to-text technologií. Tato práce je věnována rozpoznávání emocí z takovýchto textů. Navzdory rozsáhlému výzkumu v této oblasti tři významné problémy přetrvávaly: neprozkoumaná nebo omezená účinnost metod napříč doménami, povrchní analýza výsledků a omezená použitelnost výstupů. Tyto výzvy řešíme navržením dvou modelů založených na modelu RoBERTa, které nazýváme EmoMosaic-base a EmoMosaic-large. Tyto modely byly trénovány na následujicích datasetech: SemEval-2018 Task 1:Affect in Tweets, GoEmotions, XED a DailyDialog. Na rozdíl od ostatních studií jsme naše modely trénovali na všech uvedených datasetech současně, přičemž jsme zachovali jejich původní kategorie. Výsledkem jsou modely, které dobře fungují napříč různými doménami a jsou přímo porovnatelné s ostatními metodami. Model EmoMosaic-large dokonce překonává nedávné jedno-doménové state-of-the-art modely na datasetech SemEval-2018 Task 1: Affect in Tweets a GoEmotions, což dokazuje jeho vynikající schopnosti napříč různými oblastmi. Pro zvýšení využitelnosti a reprodukovatelnosti našeho výzkumu poskytujeme veškerý kód a modely veřejně na: https://huggingface.co/vtlustos.
Most human interactions are either text-based or can be converted to text using speech-to-text technologies. This thesis is dedicated to recognizing emotions from these texts. Despite extensive research in this domain, three significant challenges persisted: unexplored or limited cross-domain efficacy of the methods, superficial analysis of the result, and limited usability of the outcomes. We address these challenges by proposing two models based on the RoBERTa model, which we call EmoMosaic-base and EmoMosaic-large. These models were trained on the following datasets: SemEval-2018 Task 1: Affect in Tweets, GoEmotions, XED, and DailyDialog datasets. In contrast to prior studies, we trained our models on all the datasets simultaneously while preserving their original categories. This resulted in models that exhibit strong performance across diverse domains and are directly comparable to other methods. In fact, EmoMosaic-large outperforms recent single-domain state-of-the-art models on SemEval-2018 Task 1: Affect in Tweets and GoEmotions datasets, demonstrating outstanding cross-domain performance. To promote the usability and reproducibility of our research, we make all our code and models public, available at: https://huggingface.co/vtlustos.
Keywords:
DailyDialog; GoEmotions; klasifikace emocí z textu; rozpoznávání emocí napříč doménami; rozpoznávání emocí z textu; SemEval-2018 Task 1; XED; cross-domain emotion recognition; DailyDialog; emotion classification from text; emotion recognition from text; GoEmotions; SemEval-2018 Task 1; XED
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: https://hdl.handle.net/11012/248986