Název:
Ghostwriting detector
Autoři:
Dobeš, Erik Typ dokumentu: Diplomové práce
Rok:
2022
Jazyk:
cze
Abstrakt: [cze][eng] Cílem této práce je analyzovat, navrhnout a implementovat metody, kterými lze v dokumentu vybrat slova do doplňovacího testu, která nejlépe odrážejí autorský styl a téma daného dokumentu. U daných slov lze předpokládat, že je-li jejich autor požádán o jejich doplnění v kontextu celého odstavce, kde se nacházejí, existuje vysoká pravděpodobnost jejich úspěšného vyplnění. Naopak doplňuje-li daná slova stejným způsobem čtenář bez bližší znalosti autorova stylu, pravděpodobnost korektního doplnění je nízká, ne však nulová. V práci navržené metody potvrdily tento předpoklad o úspěšnosti či neúspěšnosti doplnění slov. Vybraná slova však musejí být plnovýznamová. Jedním z důvodů je, že odrážejí téma textu. Mezi úspěšné a zároveň nejefektivnější metody představené v mé prací patří Metoda užití nejfrekventovanějších trigramů a Metoda užití nejfrekventovanějších plnovýznamových slov. V práci bylo také zjištěno, že složitost textu negativně ovlivňuje úspěšnost doplnění slov u lidí, kteří nenapsali text, z nějž daný test vychází. Náročnost textu však neovlivňuje úspěšnost doplnění slov u autorů.The aim of this work is to analyze, design and implement methods that can be used in a document to select words for the cloze-test, which best reflect the author’s style and theme of the document. For given words, it can be assumed that if their author is asked to complete them in the context of the entire paragraph where they are located, then there is a high probability of their successful completion. On the contrary, if the reader fills in the given words in the same way without a closer knowledge of the author’s style, the probability of correct completion is low, but not zero. The methods proposed in the work confirmed this assumption about the success or failure of word filling in. However, the selected words must be content ones. One reason is that they reflect the topic of the text. Among the successful and at the same time the most effective methods presented in this work are the Method of using the most frequent trigrams and the Method of using the most frequent content words. It was also found that the complexity of the text negatively affects the success of word completion in people who did not write the text which the test is based on. However, the complexity of the text does not affect the success of the word completion by the authors.
Klíčová slova:
academic ghost writing; authorship; author’s style; autorský styl; autorství; cloze-test; content words; contract cheating; doplňovací test; frekvenční analýza; frequency analysis; function words; funkční slova; hapax legomenon; n-gram; NLTK; plagiarism; plagiátorství; plnovýznamová slova; Python; stematizace; stemming; tokenizace; tokenization