Original title:
Rekurentní neuronové sítě pro klasifikaci textů
Translated title:
Recurrent Neural Network for Text Classification
Authors:
Myška, Vojtěch ; Kolařík, Martin (referee) ; Povoda, Lukáš (advisor) Document type: Master’s theses
Year:
2018
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií Abstract:
[cze][eng]
Diplomová práce se zabývá návrhem neuronových sítí pro klasifikaci pozitivních a negativních textů. Vývoj probíhal v programovacím jazyce Python. Návrh modelů hlubokých neuronových sítí byl proveden pomocí vysokoúrovňového API Keras využívající knihovnu pro numerické výpočty TensorFlow. Výpočetní operace byly provedeny pomocí GPU využívající CUDA architekturu. Výstupem práce je jazykově nezávislý model neuronových sítí umožňující klasifikaci textů na úrovni znaků. Vzorky byly úspěšně klasifikovány až v 93,64% případů. Trénovací a testovací data byla poskytnuta vícejazyčnou a Yelp databází. Simulace byly provedeny na 1200000 anglických, 12000 českých, německých a španělských textů.
Thesis deals with the proposal of the neural networks for classification of positive and negative texts. Development took place in the Python programming language. Design of deep neural network models was performed using the Keras high-level API and the TensorFlow numerical computation library. The computations were performed using GPU with support of the CUDA architecture. The final outcome of the thesis is linguistically independent neural network model for classifying texts at character level reaching up to 93,64% accuracy. Training and testing data were provided by multilingual and Yelp databases. The simulations were performed on 1200000 English, 12000 Czech, German and Spanish texts.
Keywords:
CUDA; deep learning; Keras; Kex; neural networks; recurrent neural networks; TensorFlow; texts classification; CUDA; hluboké učení; Keras; Kex; klasifikace textů; neuronové sítě; rekurentní neuronové sítě; TensorFlow
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/80785