Original title:
Pořízení podrobné a gigantické fotografie a lokalizace v ní
Translated title:
Capturing of Detailed and Very Large Photograph and Localization Within
Authors:
Dubovec, Pavol ; Vaško, Marek (referee) ; Herout, Adam (advisor) Document type: Master’s theses
Year:
2024
Language:
slo Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[slo][eng]
Cieľom tejto práce bolo vytvoriť veľký obrázok a novú techniku na lokalizáciu fotografie vo väčšom obrázku, aby sa zvýšila rýchlosť a presnosť bežných metód. Navrhovaná technika využíva architektúru CNN na extrakciu embeddings z dopytovaného obrázka, ktoré sa použijú na vyhľadávanie v databáze embeddings z veľkej fotografie. Boli natrénované dva modely na veľkom súbore údajov: klasifikačný (CE) a dištančný (triplet). Na určenie umiestnenia obrázkov a na generovanie veľkého obrázka sa použili konvenčné metódy. Databáza vkladov sa vytvorila rozdelením veľkej fotografie pomocou natrénovaného modelu. V databáze sa vyhľadá K-najbližších embeddings výrezov query obrázka. Tieto embeddings sa generujú rozdelením query fotografie na rovnako veľké časti ako vstupy CNN. Optimálny model homografie sa určí náhodným výberom na základe pozícií štyroch výrezov query obrazov a ich zodpovedajúcich pozícií vo veľkom obraze. Ako výsledná pozícia sa vyberie model homografie s najnižším harmonickým priemerom embedding vzdialenosti. Homografia sa optimalizuje pomocou párovania šablón, kde je to možné. Metóda vykazuje dostatočnú presnosť a vysokú rýchlosť na testovacích súboroch údajov. Najlepší model dosiahol presnosť top-1 97.71% a presnosť top-3 99.67 %. V ďalšom výskume sa budú zisťovať výsledky metódy pri zvyšujúcej sa heterogenite povrchu, možnosti automatizácie vyhľadávania videí na získanie veľkého súboru údajov s fotografiami a jej účinnosť pri lokalizácii fotografií, keď bežné metódy zlyhávajú.
The goal of this work was to create a large image and a new technique to localize the photo in the larger image to increase the speed and accuracy of conventional methods. The proposed technique uses CNN architecture to extract embeddings from the queried image which will be used to search the database of embeddings from the large photo. Two models have been trained on a large dataset: based on classification (CE) and distance (triplet) Conventional methods were used to determine the location of the images and to generate the large image. A database of embeddings was created by partitioning the large image using the trained model. The database is searched for the K-nearest embeddings of the cutouts of the query image. These embeddings are generated by dividing the query photo into the same size parts as the CNN inputs. The optimal homography model is determined by random selection based on the positions of the four query image cutouts and their corresponding positions in the big picture. The homography model with the lowest harmonic mean of the embedding distance is selected as the final position. The homography is optimized using template matching where possible. The method shows sufficient accuracy and high speed on test datasets. The best model achieved a top-1 accuracy of 97.71% and a top-3 accuracy of 99.67%. Future research will investigate the performance of the method under increasing surface heterogeneity, the possibility of automating video retrieval to obtain a large dataset with photos, and its effectiveness in locating photos when conventional methods fail.
Keywords:
Approximate Search; CNN; Homography Estimation; Image Localization
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: https://hdl.handle.net/11012/248895