Original title:
Adaptabilní heuristika pro vyhodnocování podobnosti zdrojových textů
Translated title:
Adaptable heuristic for source code similarity measuring.
Vodsloň, František ; Kopecký, Michal (referee) ; Holan, Tomáš (advisor) Document type: Master’s theses
cze Abstract:
[cze][eng] Princip fungování většiny existujících systémů pro vyhledávání plagiátů v zadané množině zdrojových textů spočívá v postupném porovnávání každého textu s ostatními texty v množině. Ve většině případů vyjde spočítaná míra podobnosti natolik malá, že se dále není třeba danou dvojicí souborů zabývat (můžeme s jistotou na základě dosažené míry podobnosti prohlásit, že se nejedná o plagiáty). Cílem této práce je navrhnout algoritmus pro předvýběr dvojic souborů určených k porovnání. Heuristický algoritmus by měl efektivně odhadovat výsledky složitějšího porovnávacího programu a na základě tohoto odhadu rozhodovat, zda připustit dvojici zdrojových textů k porovnání. Algoritmus by měl být adaptabilní v tom smyslu, že by měnil svoje odhady v závislosti na spektru zdrojových textů obsažených v systému.Most of systems for plagiarism detection within a set of source codes is based on sequential comparing of each source code with all other source codes in the set. Computed similarity is in most cases so low, that we can deduce compared codes are not plagiarized. Purpose of this work is to create a heuristic algorithm for pre-selection of source code pairs for comparing. Heuristic algortihm should effectively aproximate results of the main comparing program, which is more complicated and slower. The plagiarism detection system will then decide, based on the result of heuristic algorithm, whether the source code pair will be compared using main comparing program or not. Algorithm should be self-adapting - it should be able to improve itself depending on the set of source codes saved in system.
Institution: Charles University Faculties (theses)
Document availability information: Available in the Charles University Digital Repository. Original record: http://hdl.handle.net/20.500.11956/30601