Original title:
Vizuální lokalizace v přírodě
Translated title:
Visual Localization in Natural Environments
Authors:
Brejcha, Jan ; Sattler, Torsten (referee) ; Matas, Jiří (referee) ; Čadík, Martin (advisor) Document type: Doctoral theses
Language:
eng Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[eng][cze]
V této práci se zabýváme odhadem pozice a orientace kamery z dané fotografie. Tento problém nazýváme vizuální geo-lokalizace. Konkrétně se zabýváme fotografiemi pořízenými v přírodních horských prostředích. Představujeme podrobný průzkum aktuálního stavu poznání algoritmů, datových sad a přístupů k vyhodnocování problému vizuální geo-lokalizace. Náš průzkum odhalil, že vizuální geo-lokalizace v přírodních prostředích je často řešena pomocí vyhledávání podobností nebo korespondencí mezi vstupní fotografií a terénním modelem. Problém nacházení korespondencí mezi fotografií a terénním modelem nazýváme porovnávání napříč doménami (cross-domain matching). Na základě našeho průzkumu jsme stanovili tři hlavní cíle, jejichž dosažení nám umožňuje překonat aktuální stav poznání vizuální geo-lokalizace v horských prostředích s využitím porovnávání napříč doménami: (I) potřeba nových datových sad které umožní trénovat, vyhodnocovat a porovnávat algoritmy vizuální geo-lokalizace, (II) potřeba ověřit, zda využití různých příznaků - křivek horizontu, hranových map, sémantické segmentace a satelitních snímků pomůže vylepšit algoritmy pro porovnávání napříč doménami, (III) potřeba ilustrovat využitelnost metod vizuální geo-lokalizace pomocí vývoje jejich nových aplikací. V této práci podrobně popisujeme naše výzkumné studie, které objasňují, jakým způsobem jsme postupovali ve výzkumu jednotlivých cílů. Představujeme několik nových datových sad pro účely vyhodnocování, porovnávání a trénování jednotlivých metod. S využitím těchto nových datových sad jsme vyvinuli novou metodu pro zarovnání fotografií s terénním modelem na základě sémantické segmentace kombinované s běžnými hranovými příznaky. Pomocí experimentálního vyhodnocení objasňujeme výhody našeho nového přístupu oproti aktuálnímu stavu poznání. Dále navrhujeme meta algoritmus umožňující automatickou kalibraci více kamer, který je založen na odhadu struktury z pohybu (Structure from Motion) napříč doménami. Tento nový přístup pro automatické zarovnávání fotografií s terénním modelem nám umožňuje natrénovat kompaktní deskriptor klíčových bodů pomocí hlubokého učení. V rámci našeho výzkumu ukazujeme funkčnost tohoto deskriptoru při odhadu externích parametrů kamery (pozice a orientace) pomocí porovnávání vstupní fotografie s terénním modelem. V závěru práce ukazujeme praktickou využitelnost našich metod pro automatickou kalibraci externích parametrů kamery. Navrhujeme nový přístup k prezentaci fotografií, který je vhodný jak pro prezentaci na monitoru či jiné projekční ploše, tak pro virtuální realitu. Pomocí experimentálního vyhodnocení ukazujeme, že naše nová metoda prezentace fotografií pomáhá uživatelům s orientací v neznámých komplexních přírodních scénách.
We focus our work on camera position and orientation estimation given a query photograph; we call this problem visual geo-localization. Specifically, we focus on photographs captured in natural, mountainous environments. We introduce a thorough review of state-of-the-art computer vision methods, datasets, and evaluation practices for visual geo-localization problems. The survey revealed that researchers usually cast visual geo-localization in natural environments as a similarity or a correspondence search between an input photograph and a terrain model; we call this problem the cross-domain matching. We identified three main goals to improve over the state of the art in visual geo-localization in mountainous environments using cross-domain matching: (I) the need for new datasets for training, validation, and evaluation of cross-domain visual geo-localization algorithms, (II) the need to verify whether the cross-domain matching algorithms may benefit from using different features-horizon lines, edge maps, semantic segmentation, and satellite imagery, (III) the need to illustrate the usefulness of visual geo-localization methods by developing novel applications. In this thesis, we thoroughly describe our research studies to illustrate how we examined particular goals. We introduce several novel datasets for evaluation and training of cross-domain matching methods. These novel datasets allowed us to propose a novel method for cross-domain photo-to-terrain matching using a combination of semantic segments and classic edge-based features. We illustrate the benefits of our novel approach over the state of the art on camera orientation estimation. Furthermore, we propose a meta-algorithm based on a cross-domain Structure from Motion for a weakly supervised acquisition of cameras aligned with the synthetic terrain. This novel cross-domain data acquisition scheme allowed us to train a compact cross-domain keypoint descriptor. We illustrate the descriptor performance by estimating full camera pose by matching the query photograph to the rendered terrain model. Finally, we demonstrate a practical usability of outdoor visual geo-localization by designing a novel application of photography presentation on a computer screen or in virtual reality. Moreover, we illustrate that our novel presentation method helps the user with complex outdoor scene understanding and improves self-localization in unvisited outdoor environments.
Keywords:
digitální elevační modely; lokalizace kamery; odhad rotace kamery; porovnávání deskriptorů; porovnávání napříč doménami; prezentace fotografií; renderování terénu; rozšířená realita; virtuální realita; Vizuální geo-lokalizace; augmented reality; camera localization; camera rotation estimation; cross-domain matching; descriptor matching; digital elevation models; photography presentation; terrain rendering; virtual reality; Visual geo-localization
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/204606