Original title:
Metody detekce nevyžádané elektronické pošty
Translated title:
Spam detection methods
Authors:
Rickwood, Michal ; Horváth, Tomáš (referee) ; Oujezský, Václav (advisor) Document type: Bachelor's theses
Year:
2022
Language:
eng Publisher:
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií Abstract:
[eng][cze]
Hlavním cílem této práce je navrhnout a implementovat detekční algoritmus na spam, který využívá výhradně záznamy provozu v podobě Netflow zpráv. Poskytovatelé internetových služeb musí spam detekovat, aby zabránili označování celých jejich subnetů za spammery. Algoritmus byl navržen na základě analýzy mnohých datasetů obsahující Netflow záznamy. Tyto datasety obsahovaly validní emaily, spam a také běžný internetový provoz. Algoritmus v prvním kroku využívá domain name system blacklistů pro verifikaci spammovací stanice. Veškerá komunikace ze stanic, které se objeví na některém ze seznamů jsou okamžitě zahozeny. Filtrační kritéria algoritmu jsou aplikována pouze na stanice, které nejsou blacklisty označeny. Tato kritéria byla rozdělena na akceptační a seřaďovací. Akceptační kritérium bylo navrženo k nalezení potenciálně významných stanic. Bylo formulováno pět kritérií určených k seřazování těchto vybraných IP adresy dle pravděpodobnosti, že se jedná o spamovací stanice. Za každým kritérium stojí matematická rovnice vracející hodnotu mezi 0 a 1. Celkový součet takto vrácených hodnot se u spamovacích stanic blíží k pěti, zatímco legitimní stanice mají hodnoty znatelně nižší. Výstupem vyvinutého algoritmu je seznam potenciálních spamovacích stanic seřazených podle pravděpodobnosti, že se jedná o spamovací stanice.
The main goal of this thesis is to build a spam detection algorithm that uses solely traffic flow logs in the form of Netflow messages. Internet service providers must detect spam in order for their entire subnets not to be marked as spamming stations. The algorithm was drafted based on an analysis of various datasets containing Netflow records. These datasets consist of valid e-mails, spam and common non e-mail related traffic. The algorithm uses domain name system blacklist verification as the first step of identifying a spamming station. All flagged communications are dropped immediately. Only if a station is not marked are filtering criteria subsequently applied. These criteria have been divided into acceptance and ordering criteria. An acceptance criterion has been drafted to select potentially significant stations. Five ordering criteria have been formulated to sort these selected IP addresses by the probability of them being spamming stations. Behind each criterion is a mathematical equation that returns a value between 0 and 1. The total sums of such returned values are close to 5 with spamming stations, while legitimate stations have noticeably lower values. The output of the developed algorithm is a list of potential spamming stations sorted probability of them being spamming stations.
Keywords:
Netflow provoz; nevyžádaná elektronická pošta; ochrana soukromí; Netflow traffic; privacy protection; unsolicited electronic mail
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/205529