Název:
Hledání téměř identických dokumentů ve velkých kolekcích
Překlad názvu:
Near duplicate detection in large document collections
Autoři:
Benčík, Daniel ; Kopecký, Michal (oponent) ; Pecina, Pavel (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2007
Jazyk:
cze
Abstrakt: [cze][eng] Tato práce se zabývá problematikou vyhledávání dokumentů, které jsou si natolik podobné, že je můžeme považovat za (téměř) stejné, a to v kolekcích čítajících až miliony dokumentů. Největší důraz práce je kladen na porovnání nových, rychlých algoritmů řešících danou úlohu s algoritmy stávajícími, které jsou díky své složitosti pro obrovské kolekce nepoužitelné. Práce obsahuje implementaci obou metod přístupu k dané problematice spolu s aplikacemi umožňujícími experimentální porovnání obou těchto metod.This thesis deals with the problematics of detecting documents, which are so similair one to another, that we can consider them to be (nearly) identical and that in collections having up to millions of documents. The greatest aim of this thesis is a comparison of new, fast algorithms designed to solve this task with current algorithms, which due to their complexitiy cannot be used for large collections. The thesis contains an implementation of both new and current methods of solving the given task toghether with applications that are designed to experimentally compare these methods.