Original title:
Systémy pro kontrolu elektronických textů
Translated title:
Systems for checing electronic texts
Authors:
Zouhar, Petr ; Malý, Jan (referee) ; Pfeifer, Václav (advisor) Document type: Bachelor's theses
Year:
2008
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií Abstract:
[cze][eng]
Práce se zabývá možností kontroly elektronických textů. Ať už se jedná o zdrojové kódy či běžné textové dokumenty. První kapitola je věnována stručnému vysvětlení plagiátu a jeho znaků. V dalších částech textu popisujeme metody a metriky využívané k odhalování plagiátorů. Poté věnujeme pozornost detekování plagiátů ve volném textu a zdrojových kódech. U volného textu popisujeme způsob předzpracování souboru a výběr základních jednotek, které následně dokument zastupují při porovnávání. Zdrojové kódy mají svou přesně danou syntaxi, a proto se v kapitole popisující přístupy k jejich kontrole věnujeme syntaktické a sémantické analýze. Druhá polovina práce je zaměřena na praktickou část, zejména na programy určené ke kontrole zdrojových kódů. Programy rozdělíme na volně dostupné a komerční. Poté následuje jejich stručný popis a v případě, že umožňují bezplatné vyzkoušení, jsou u nich uvedeny výsledky porovnávání. K tomu účelu jsme vytvořili korpus zdrojových kódů. V závěru práce se věnujeme návrhu programu, který porovnává dva zdrojové kódy na základě statistické podobnosti.
The work deals with the possibility of control of electronic texts. Whether it is a source codes or standard text documents. The first chapter is devoted to a brief explanation of the term plagiarism and its characters. Sequentially we describe the methods and metrics used to detect plagiarist. Then we pay attention to detect plagiarism in the free text and source codes. We describe the way of preprocessing of a file and choice of basic units, which represent the document in the comparing. Source codes have a exact syntax. Therefore we attend to the syntax and semantic analysis in the chapter, which describes the check of source codes. The second half of the work is focused on the practical part, particularly on programs intended to control the source codes. The programs are divided to the freely available and the commercial. This is followed by their brief description and if it is a free trial possible we mention the results from this comparing. So we created a corpus of source codes. At the end of the work we focus on design of a program, which compares two source codes on the basis of statistical similarities.
Keywords:
Copyright; corpus; plagiarism; source code; text detection; Autorská práva; detekce textu; korpus; plagiát; zdrojový kód
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/17408