Original title:
Stereo rekonstrukce mračna bodů pomocí hlubokých neuronových sítí
Translated title:
Stereo Reconstruction with Deep Neural Networks
Authors:
Letanec, Richard ; Herout, Adam (referee) ; Španěl, Michal (advisor) Document type: Master’s theses
Year:
2024
Language:
slo Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[slo][eng]
Cieľ tejto diplomovej práce je navrhnúť a natrénovať model neurónovej siete schopný odhadovať disparitnú mapu z dvojice obrázkov. Z odhadnutej disparitnej mapy bude následne možné vytvoriť hĺbkovú mapu a mračno bodov. Takýto proces sa nazýva stereo rekonštrukcia. Riešenie tejto úlohy pozostáva z dvoch krokov -- výberu vhodnej dátovej sady a výberu vhodnej architektúry neurónovej siete. V práci som porovnal dve architektúry neurónových sietí, ktoré som natrénoval na dátovej sade DrivingStereo, pozostával z párových obrázkov vyfotografovaných zo strechy auta a dotrénoval a vyhodnotil na dátovej sade KITTI 2015, pozostával z obrázkov rovnakého typu. Ako prvú architektúru neurónovej siete som zvolil ES-Net, ktorý využíva prístup založený na sekvencii reziduálnych blokov a konvolučných vrstiev. Ako druhú architektúru som zvolil CREStereo, ktorá na predikciu disparitnej mapy využíva iteratívny prístup založený na rekurentných vrstvách. Vo všetkých porovnávacích testoch dosahuje lepšiu presnosť predikcie architektúra CREStereo.
The aim of this thesis is to design and train a neural network model capable of estimating a disparity map from a pair of images. It will then be possible to create a depth map and point cloud from the estimated disparity map. Such a process is called stereo reconstruction. Solving this task consists of two steps -- choosing a suitable dataset and choosing a suitable neural network architecture. In my work, I compared two neural network architectures that I trained on the DrivingStereo dataset, consisting of paired images photographed from the roof of a car, and retrained and evaluated on the KITTI 2015 dataset, consisting of images of the same type. As the first neural network architecture, I chose ES-Net, which uses an approach based on a sequence of residual blocks and convolutional layers. As the second architecture, I chose CREStereo, which uses an iterative approach based on recurrent layers to predict the disparity map. In all benchmark tests, the CREStereo architecture achieves better accuracy.
Keywords:
CREStereo; deep neural networks; depth map; disparity map; ES-Net; point cloud; pytorch; stereo reconstruction
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: https://hdl.handle.net/11012/248918