Original title:
Využití explicitní sémantické analýzy pro detekci podobností ve zdrojových kódech
Authors:
Všianský, Richard Document type: Master’s theses
Year:
2019
Language:
cze Abstract:
[cze][eng] Diplomová práce se zabývá využitím explicitní sémantické analýzy v odhalovaní podobností ve zdrojových kódech v kontextu plagiátorství. Pro vybudování sémantického interpretu bylo využito 40 829 článků z Wikipedie a analýza se testovala na 25 speciálně vytvořených souborech za pomocí plagiátorských technik a pěti staženými napříč pěti jazyky: Java, Javascript, PHP, C++ a Python. Další dataset o velikosti 15 stažených souborů testoval náhodné shody. Prokázalo se, že analýza je schopna na daném datasetu odhalit podobnosti i mezi odlišnými jazyky. K upřesnění výsledků byl použit Greedy String Tiling algoritmus a společně s explicitní sémantickou analýzou je implementován do systému Anton.This diploma thesis deals with using of explicit semantic analysis for detection similarities in source codes in the context of plagiarism. For building a semantic interpreter 40 829 Wikipedia articles were used and the analysis was tested on 25 specially created documents using plagiarism techniques and 5 downloaded documents. The dataset was consisted of five languages: Java, Javascript, PHP, C++ and Python. Another dataset of 15 documents was used for testing random matches. It was demonstrated that the analysis is capable for the given dataset do detect similarities among different languages. Greedy String Tiling algorithm was used to refine the results and together with the explicit semantic analysis is implemented in the system Anton.
Keywords:
detekce plagiátorství; explicitní sémantická analýza; Greedy String Tiling; plagiátorství; zdrojový kód