Original title:
Hluboké učení pro klasifikaci textů
Translated title:
Deep Learning for Text Classification
Authors:
Kolařík, Martin ; Harár, Pavol (referee) ; Povoda, Lukáš (advisor) Document type: Master’s theses
Year:
2017
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií Abstract:
[cze][eng]
Práce se zabývá rozborem současných metod strojového učení používaných pro emoční klasifikaci textových dat a testováním různých architektur neuronových sítí na problému binární klasifikace textů na pozitivní a negativní. Výstupem práce je návrh vlastní architektury hluboké konvoluční neuronové sítě, která je optimalizovaná pro problém a dosáhla úspěšnosti 79,9 procent. Navrhovaná metoda není závislá na použitém jazyce a je možno ji aplikovat i při využití méně detailně vytvořených vstupních trénovacích databází. Trénovací a testovací množina dat se skládala z kratších amatérských filmových recenzí v češtině a angličtině. Skripty byly psány v programovacím jazyce Python, využita byla knihovna pro modelování neuronových sítí Keras a výpočetní knihovna Theano. Kvůli zvýšení rychlosti výpočtu byly početní operace prováděny přes architekturu CUDA na grafické kartě. Součástí práce je také přehled teoretického základu pro práci s konvolučními neuronovými sítěmi a historie neuronových sítí.
Thesis focuses on analysis of contemporary machine learning methods used for text classification based on emotion and testing several deep neural nework architectures. Outcome of this thesis is a neural network architecture, which is tuned for using with text data and which had the best result of 79,94 percent. Proposed method is language independent and it doesn’t require as precisely classified training datasets as current methods. Training and testing datasets were consisted of short amateur movie reviews in Czech and in English. Thesis contains also overview of theoretical basics for convolutional neural networks and history of neural networks and language processing Scripts were written in Python, neural networks were simulated using Keras library and Theano framework. We used CUDA for better performance.
Keywords:
classification; CUDA; deep learning; emotion; keras; machine learning; neural networks; theano; CUDA; emoce; hluboké učení; keras; klasifikace; neuronové sítě; strojové učení; theano
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/65880