Original title:
Detektor plagiátů textových dokumentů
Translated title:
Text document plagiarism detector
Authors:
Kořínek, Lukáš ; Horák, Karel (referee) ; Petyovský, Petr (advisor) Document type: Master’s theses
Year:
2021
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií Abstract:
[cze][eng]
Diplomová práce se zabývá rešerší metod detekce plagiátů v textových dokumentech a následným návrhem a implementací nového detektoru plagiátů, jehož primárním účelem je odhalování plagiátů v akademických pracích VUT v Brně. Vytvořené řešení aplikuje vícekrokové algoritmy předzpracování na cílové dokumenty, jejichž zpracovaná data jsou následně uložena do vlastního korpusu (báze dokumentů). Úloha hledání shod (možných plagiátů) porovnává vybraný dokument vůči zbytku korpusu, přičemž využívá paralelních výpočtů na grafické kartě. Cílem je dosáhnout co nejrychlejšího srovnání při zachování přijatelné kvality výstupu.
This diploma thesis is concerned with research on available methods of plagiarism detection and then with design and implementation of such detector. Primary aim is to detect plagiarism within academic works or theses issued at BUT. The detector uses sophisticated preprocessing algorithms to store documents in its own corpus (document database). Implemented comparison algorithms are designed for parallel execution on graphical processing units and they compare a single subject document against all other documents within the corpus in the shortest time possible, enabling near real-time detection while maintaining acceptable quality of output.
Keywords:
C++; CUDA; n-grams; NoSQL; parallelism; text corpus; text processing; C++; CUDA; n-gramy; NoSQL; paralelizace; textový korpus; zpracování textu
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/196985