Název:
Filtrování spamových zpráv pomocí metod umělé inteligence
Překlad názvu:
Email spam filtering using artificial intelligence
Autoři:
Safonov, Yehor ; Uher, Václav (oponent) ; Kolařík, Martin (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2020
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstrakt: [cze][eng]
V moderním počítačovém světě e-mailová komunikace patří do nejpoužívanějších prostředků pro výměnu zpráv mezi uživateli. Jedná se o volně dostupný, efektivní a jednoduchý způsob sloužící ke sdělení informací. Tyto tři základní pilíře přispívají k její světové rozšířenosti a strmému nárůstu přenášených elektronických zpráv. Na druhou stranu, rostoucí popularita této technologie v sobě skrývá velká bezpečnostní rizika a tvoří z ní ideální nástroj pro šíření nevyžádaného obsahu a realizaci útoků cílených jak na koncové uživatele, tak i na celé počítačové infrastruktury. Ačkoliv v dnešní době používané klasické nástroje na filtrování spamu dosahují vysokých přesností, často neumožňují pokrytí dynamičnosti vývoje spamových technik a trpí problémy s přeučením, uváznutím v nevhodných lokálních minimech, neschopností efektivně zpracovávat vysoce dimenzionální data a z dlouhodobého hlediska disponují problémy s udržitelností. Hlavním cílem této diplomové práce je vytvoření a naučení modelů hlubokých neuronových sítí použitím nejmodernějších technik a přístupů existujících ve světě zpracování přirozeného jazyka a strojového učení. V rámci teoretické části se práce zaměřuje na problematiku e-mailové komunikace se zaměřením na filtrování nevyžádané pošty. Následně se věnuje doméně strojového učení a umělých neuronových sítí, zejména principům jejich fungování, základním vlastnostem a možnostem jejich aplikování na okruh problémů spojených s provedením textové analýzy. Mezi silné stránky práce patří provedení podrobného srovnání současných metod strojového učení, jejich specifik a přesnosti při aplikování na klasifikaci spamu. V praktické části práce byl důraz položen na zpracování datové sady surových e-mailů a srovnání modelů ULMFiT, BERT a XLNet. Zpracování dat bylo rozděleno do pěti etap, a to s cílem zachování co nejvyšší informační hodnoty zpráv a vytvoření kvalitní datové sady, která byla použita pro trénování, testování a validaci zvolených druhů neuronových sítí. Dále diplomová práce zahrnuje popis procesu učení sítí včetně etapy finálního přizpůsobení dat k modelování. Na konci práce byly implementované modely srovnány a byla nastíněna případná rozšíření do budoucna.
In the modern world, email communication defines itself as the most used technology for exchanging messages between users. It is based on three pillars which contribute to the popularity and stimulate its rapid growth. These pillars are represented by free availability, efficiency and intuitiveness during exchange of information. All of them constitute a significant advantage in the provision of communication services. On the other hand, the growing popularity of email technologies poses considerable security risks and transforms them into an universal tool for spreading unsolicited content. Potential attacks may be aimed at either a specific endpoints or whole computer infrastructures. Despite achieving high accuracy during spam filtering, traditional techniques do not often catch up to rapid growth and evolution of spam techniques. These approaches are affected by overfitting issues, converging into a poor local minimum, inefficiency in highdimensional data processing and have long-term maintainability issues. One of the main goals of this master's thesis is to develop and train deep neural networks using the latest machine learning techniques for successfully solving text-based spam classification problem belonging to the Natural Language Processing (NLP) domain. From a theoretical point of view, the master's thesis is focused on the e-mail communication area with an emphasis on spam filtering. Next parts of the thesis bring attention to the domain of machine learning and artificial neural networks, discuss principles of their operations and basic properties. The theoretical part also covers possible ways of applying described techniques to the area of text analysis and solving NLP. One of the key aspects of the study lies in a detailed comparison of current machine learning methods, their specifics and accuracy when applied to spam filtering. At the beginning of the practical part, focus will be placed on the e-mail dataset processing. This phase was divided into five stages with the motivation of maintaining key features of the raw data and increasing the final quality of the dataset. The created dataset was used for training, testing and validation of types of the chosen deep neural networks. Selected models ULMFiT, BERT and XLNet have been successfully implemented. The master's thesis includes a description of the final data adaptation, neural networks learning process, their testing and validation. In the end of the work, the implemented models are compared using a confusion matrix and possible improvements and concise conclusion are also outlined.
Klíčová slova:
BERT; bezpečnost; e-mailová komunikace; filtrování spamu; hluboké učení; textová klasifikace; ULMFiT; umělá inteligence; XLNet.; zpracování přirozeného jazyka; Artificial intelligence; BERT; deep learning; email communication; natural language processing; security; spam filtering; text classification; ULMFiT; XLNet.
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/189201