Original title:
Dolovanie znalostí z textových dát použitím metód umelej inteligencie
Translated title:
Text Mining Based on Artificial Intelligence Methods
Authors:
Povoda, Lukáš ; Tučková,, Jana (referee) ; Brezany, Peter (referee) ; Burget, Radim (advisor) Document type: Doctoral theses
Year:
2018
Language:
slo Publisher:
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií Abstract:
[slo][eng]
Práca sa zaoberá problémom dolovania znalostí z textových dát, ktorý je stále aktuálnejší vzhľadom na exponenciálny rast množstva uložených dát v elektronickej podobe, kde 80% týchto dát je v textovej podobe. Práca skúma súčasné metódy, ich možné zvýšenie presnosti vďaka optimalizačným metódam, ako aj nové metódy riešenia problému porozumenia textu s modelovaním kognitívneho správanie človeka pri spracovaní textových dát. Problém súčasných metód, ktorým je závislosť na konkrétnom jazyku textu, ako aj ich presnosť, ktorá nedosahuje úspešnosti človeka, rieši prostredníctvom troch smerov: tradičnými metódami a ich optimalizáciami, prístupom Big Data a abstrahovaním prostredníctvom minimalizácie jazykovo závislých častí, a prístupom hlbokého učenia. Hlavným cieľom dizertačnej práce bolo navrhnúť metódu pre strojové porozumenie neštruktúrovaným textovým dátam. Metóda bola experimentálne overená na probléme extrakcie jednoduchých informácií prostredníctvom klasifikácie textových dát v 5 jazykoch – čeština, angličtina, nemčina, španielčina a čínština, čím bola dokázaná možnosť aplikácie na rôzne rodiny jazykov. Pri validácií na databáze hodnotení Yelp bola dosiahnutá presnosť vyššia o 0,5% než poskytujú súčasné metódy.
This work deals with the problem of text mining which is becoming more popular due to exponential growth of the data in electronic form. The work explores contemporary methods and their improvement using optimization methods, as well as the problem of text data understanding in general. The work addresses the problem in three ways: using traditional methods and their optimizations, using Big Data in train phase and abstraction through the minimization of language-dependent parts, and introduction of the new method based on the deep learning which is closer to how human reads and understands text data. The main aim of the dissertation was to propose a method for machine understanding of unstructured text data. The method was experimentally verified by classification of text data on 5 different languages – Czech, English, German, Spanish and Chinese. This demonstrates possible application to different languages families. Validation on the Yelp evaluation database achieve accuracy higher by 0.5% than current methods.
Keywords:
Artificial intelligence; data mining; emotion classification; genetic programming optimization; natural language processing; sentiment analysis; text data; text mining
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/137278