Název:
Detekce duplicit v rozsáhlých webových bázích dat
Překlad názvu:
Detection of Duplicates in Huge Web Databases
Autoři:
Sadloň, Vladimír ; Galamboš, Leo (vedoucí práce) ; Kopecký, Michal (oponent) Typ dokumentu: Diplomové práce
Rok:
2012
Jazyk:
slo
Abstrakt: [eng][cze] This master thesis analyses the methods used for duplicity document detection and possibilities of their integration with a web search engine. It offers an overview of commonly used methods, from which it chooses the method of approximation of the Jaccard similarity measure in combination with shingling. The chosen method is adapted for implementation in the Egothor web search engine environment. The aim of the thesis is to present this implementation, describe its features, and find the most suitable parameters for the detection to run in real time. An important feature of the described method is also the possibility to make dynamic changes over the collection of indexed documents.Tato diplomová práce se zabývá metodami používanými k detekci duplicitních dokumentů, a možností jejich integrace do internetového vyhledávače. Nabízí přehled běžně používaných metod, z nichž vybírá metodu aproximace Jaccardovy míry podobnosti v kombinaci se šindelováním. Vybranou metodu přizpůsobuje k implementaci v prostředí internetového vyhledávače Egothor. Cílem práce je představit tuto implementaci, popsat její vlastnosti a nalézt nejvhodnější parametry tak, aby detekce probíhala pokud možno v reálném čase. Důležitou vlastností metody je také možnost vykonávat dynamické změny nad kolekcí indexovaných dokumentů.
Klíčová slova:
detekce duplicitních dokumentů; online vyhledávání; plagiátorství; duplicity document detection; online search; plagiarism