Název:
Detekce phishingových stránek pomocí metod strojového učení
Překlad názvu:
Phishing Webpage Detection using Machine Learning Methods
Autoři:
Polóni, Peter ; Poliakov, Daniel (oponent) ; Hranický, Radek (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2024
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [eng][cze]
Phishingové stránky sú veľmi nebezpečnou hrozbou, čo znamená, že úspešná a spoľahlivá detekcia týchto stránok je veľmi doležitá. Tieto hrozby detekujem s využitím prístupu strojového učenia. Tento prístup je efektívny a dokáže odhaliť aj hrozby, s ktorými sa nikdy predtým nestretol. Ako dôveryhodné zdroje dát URL som využil OpenPhish a PhishTank. Z dôveryhodných URL som nazbieral HTML a JavaScript kód webových stránok. Zber dát som vykonal pomocou programu, ktorý som pre tento účel vytvoril. S využitím vektoru príznakov, ktorý sa skladá z 82 numerických príznakov, som vytvoril štyri klasifikátory. Následne som ich vyladil a experimentálne overil presnosť ich predikcií. Najpresnejší model je XGBoost klasifikátor, ktorý dosiahol vyváženú presnosť až 97.03% a FPR 2.22%, počas predikovania dát, ktoré nikdy predtým nevidel. Výsledky ukazujú, že tento prístup detekcie je schopný identifikovať phishingovú stránku aj v praxi. Toto som overil aj implementovaním webového rozšírenia pre prehliadač Chrome, ktoré detekuje phishigové stránky. Toto rozšírenie je vytvorené nad rámec zadania.
Phishing web pages are a very dangerous threat, which means that successful and reliable detection of these pages is essential. I detect these threats by utilizing a machine learning based approach. This approach is effective and can detect even threats it has never encountered. As credible sources of URLs, I used sources like OpenPhish and PhishTank. I gathered the HTML and JavaScript code of web pages from the trusted URLs by utilizing a data-gathering program that I created. Using the feature vector composed of 82 numerical features, I created four classifiers. Then, I tuned and experimentally tested the performance of these classifiers. The best-performing model is the XGBoost classifier, which achieved a balanced accuracy score of 97.03% and a false positive rate of 2.22% while making predictions on previously unseen data. Results show that this detection approach can identify phishing web pages even in a non-training environment, which I verified by implementing a phishing-detecting web extension for the Chrome browser. Implementing this extension is beyond the scope of the assignment of this thesis.
Klíčová slova:
dataset; gathering data; HTML; JavaScript; machine learning; phishing detection; detekcia phishingu; dátová sada; HTML; JavaScript; strojové učenie; zber dát
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: https://hdl.handle.net/11012/246897