Název:
Stereo rekonstrukce mračna bodů pomocí hlubokých neuronových sítí
Překlad názvu:
Stereo Reconstruction with Deep Neural Networks
Autoři:
Letanec, Richard ; Herout, Adam (oponent) ; Španěl, Michal (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2024
Jazyk:
slo
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [slo][eng]
Cieľ tejto diplomovej práce je navrhnúť a natrénovať model neurónovej siete schopný odhadovať disparitnú mapu z dvojice obrázkov. Z odhadnutej disparitnej mapy bude následne možné vytvoriť hĺbkovú mapu a mračno bodov. Takýto proces sa nazýva stereo rekonštrukcia. Riešenie tejto úlohy pozostáva z dvoch krokov -- výberu vhodnej dátovej sady a výberu vhodnej architektúry neurónovej siete. V práci som porovnal dve architektúry neurónových sietí, ktoré som natrénoval na dátovej sade DrivingStereo, pozostával z párových obrázkov vyfotografovaných zo strechy auta a dotrénoval a vyhodnotil na dátovej sade KITTI 2015, pozostával z obrázkov rovnakého typu. Ako prvú architektúru neurónovej siete som zvolil ES-Net, ktorý využíva prístup založený na sekvencii reziduálnych blokov a konvolučných vrstiev. Ako druhú architektúru som zvolil CREStereo, ktorá na predikciu disparitnej mapy využíva iteratívny prístup založený na rekurentných vrstvách. Vo všetkých porovnávacích testoch dosahuje lepšiu presnosť predikcie architektúra CREStereo.
The aim of this thesis is to design and train a neural network model capable of estimating a disparity map from a pair of images. It will then be possible to create a depth map and point cloud from the estimated disparity map. Such a process is called stereo reconstruction. Solving this task consists of two steps -- choosing a suitable dataset and choosing a suitable neural network architecture. In my work, I compared two neural network architectures that I trained on the DrivingStereo dataset, consisting of paired images photographed from the roof of a car, and retrained and evaluated on the KITTI 2015 dataset, consisting of images of the same type. As the first neural network architecture, I chose ES-Net, which uses an approach based on a sequence of residual blocks and convolutional layers. As the second architecture, I chose CREStereo, which uses an iterative approach based on recurrent layers to predict the disparity map. In all benchmark tests, the CREStereo architecture achieves better accuracy.
Klíčová slova:
CREStereo; deep neural networks; depth map; disparity map; ES-Net; point cloud; pytorch; stereo reconstruction
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: https://hdl.handle.net/11012/248918