Název:
Index pro podobnostní vyhledávání ve vysokodimenzionálních prostorech
Překlad názvu:
Index Suitable for Similar Search in High-dimensional Spaces
Autoři:
Krejčová, Martina ; Kopecký, Michal (vedoucí práce) ; Skopal, Tomáš (oponent) Typ dokumentu: Diplomové práce
Rok:
2012
Jazyk:
cze
Abstrakt: [cze][eng] V této práci se zabýváme indexováním a vyhledáváním vysokodimenzionálních dat pomocí metody Metrického indexu pro indexování a podobnostní vyhledávání v metrických prostorech. Použití této metody nám umožnilo vytvořit implementaci indexu vhodného pro indexaci obecných metrických prostoru. Díky tomuto indexu je krome ukládání dat umožněno i jejich efektivní vyhledávání. Vnitřní struktura dat indexu zůstává skryta, index od uživatele vyžaduje pouze definici extrakční funkce pro získání vektoru, který data reprezentuje, a podobnostní funkce, která má být na indexovaná data aplikována. V této práci vznikla implementace Metrického indexu jako data cartridge pro databázový server Oracle. Tato data cartridge rozšiřuje možnosti indexace v Oracle o vytváření doménových indexů nad nestrukturovanými daty, takzvanými LOBy.In this paper, we focus on indexing and searching in high-dimensional data. To achieve the target we implemented the Metric Index, a model of the similarity search based on the metric spaces, that employs many of known principles of partitioning and filtering. The metric space is a general model of similarity, which enables the usage of implemented index for various data. With this index, stored data could be searched effectively. The internal structure of data is hidden, we just require an implementation of the function for feature extraction, which produces a vector representing data, and the metric function applicable to the given data. The Metric Index was implemented as a data cartridge, the mechanism for extending the capabilities of the Oracle server. This data cartridge enables indexing of large unstructured data in the Oracle server known as LOBs.
Klíčová slova:
data catrtridge; index; metrický prostor; podobnostní vyhledávání; data catrtridge; index; metric space; similarity search