Original title:
Detekce anomálií v záznamech systémových událostí pomocí strojového učení
Translated title:
Anomaly Detection in System Log Files Using Machine Learning
Authors:
Moresová, Eva ; Burgetová, Ivana (referee) ; Matoušek, Petr (advisor) Document type: Master’s theses
Year:
2024
Language:
eng Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[eng][cze]
Detekcia anomálií v logoch je dôležitý proces, ktorý pomáha detekovať poruchy systému, pokusy o prienik do systému a ďalšie škodlivé správanie, prípadne týmto udalostiam umožňu\-je predchádzať. Moderné systémy však produkujú logy v množstvách, ktoré nie je možné analyzovať ručne. Preto sa na tento účel používa množstvo automatizovaných metód, od techník založených na pravidlách, až po prístupy používajúce hlboké učenie. Cieľom tejto diplomovej práce je porovnať niekoľko metód detekcie anomálií v logoch a určiť, ktorá z nich je najviac vhodná pre použitie na veľkých log súboroch z praxe. Reprezentantom takýchto dát je zbierka logov z produkčného AAA servera, ktoré boli poskytnuté firmou AT&T. Okrem AT&T logov boli metódy aplikované a vyhodnotené na dvoch ďalších anotovaných datasetoch, z ktorých jeden bol obohatený o synteticky generované anomálie. Táto práca využíva tri metódy detekcie anomálií: lokálny odľahlý faktor, zhlukovací algoritmus DBSCAN a OPTICS framework. Prvé dve metódy skúmajú logy na úrovni jednotlivých záznamov, zatiaľ čo posledná analyzuje celé sekvencie logov. Všetky metódy dosiahli výsledky porovnateľné s prácami, ktoré realizujú podobné prístupy.
Log anomaly detection is an important process that can help prevent or detect system failures, intrusion attempts and other malicious behavior. However, modern systems produce amounts of log data far beyond what is possible to analyze manually. That is why a variety of automated methods were developed for this purpose, ranging from rule based techniques to approaches using deep learning. The aim of this thesis is to compare several log anomaly detection methods to determine which one is the best suited for application on large real-world log files, represented by a collection of logs from production AAA (authentication, authorization, accounting) servers provided by AT&T. Apart from AT&T logs, the methods were applied to and evaluated on two other labeled datasets, one of which was enriched by synthetically generated anomalies. This thesis adopts three unsupervised anomaly detection methods: Local Outlier Factor, DBSCAN clustering and an OPTICS-based framework. The former two examine the logs on a sample-level, while the latter analyzes entire log sequences. All methods achieved results comparable to works with similar approaches.
Keywords:
DBSCAN; detekcia anomálií v logoch; lokálny faktor odľahlosti; OPTICS; učenie bez učiteľa; DBSCAN; Local Outlier Factor; log anomaly detection; OPTICS; unsupervised learning
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: https://hdl.handle.net/11012/248878