Original title:
Multimodální zpracování dat a mapování v robotice založené na strojovém učení
Translated title:
Machine Learning-Based Multimodal Data Processing and Mapping in Robotics
Authors:
Ligocki, Adam ; Duchoň,, František (referee) ; Saska,, Martin (referee) ; Žalud, Luděk (advisor) Document type: Doctoral theses
Year:
2021
Language:
eng Publisher:
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií Abstract:
[eng][cze]
Disertace se zabývá aplikaci neuronových sítí pro detekci objektů na multimodální data v robotice. Celkem cílí na tři oblasti: tvorbu datasetu, zpracování multimodálních dat a trénování neuronových sítí. Nejdůležitější části práce je návrh metody pro tvorbu rozsáhlých anotovaných datasetů bez časové náročného lidského zásahu. Metoda používá neuronové sítě trénované na RGB obrázcích. Užitím dat z několika snímačů pro vytvoření modelu okolí a mapuje anotace z RGB obrázků na jinou datovou doménu jako jsou termální obrázky, či mračna bodů. Pomoci této metody autor vytvořil dataset několika set tisíc anotovaných obrázků a použil je pro trénink neuronové sítě, která následně překonala modely trénované na menších, lidmi anotovaných datasetech. Dále se autor v práci zabývá robustností detekce objektů v několika datových doménách za různých povětrnostních podmínek. Práce také popisuje kompletní řetězec zpracování multimodálních dat, které autor vytvořil během svého doktorského studia. To Zahrnuje vývoj unikátního senzorického zařízení, které je vybavené řadou snímačů běžně užívaných v robotice. Dále autor popisuje proces tvorby rozsáhlého, veřejně dostupného datasetu Brno Urban Dataset. Na závěr autor popisuje software, který vznikl během jeho studia a jak je tento software užit při zpracování dat v rámci jeho práce (Atlas Fusion a Robotic Template Library).
This dissertation deals with the application of object detection neural networks on multimodal data in robotics. It aims at three topics: dataset-making, multimodal data processing, and neural network training. The most important is a proposed method that allows creating a large training dataset without an expensive and time-demanding human annotation. The method uses the neural network model trained on the RGB image data and uses multiple sensors' data to create the surrounding map and transfers the annotations of objects detected in the RGB image to the other data domain, like thermal images or point cloud data. Applying this approach, the author generated the thermal image dataset, which contained hundreds of thousands of annotated images, and used them to train the network that outperformed other models trained on human-annotated data. Moreover, the thesis also studies the robustness of object detection in various data domains during difficult weather conditions. The thesis also describes the entire multimodal data processing pipeline that the author created during his Ph.D. studies. That includes developing a unique sensory framework that employs a wide range of commonly used sensors in robotics and self-driving cars. Next, it describes the process of using the sensory framework to make a large-scale publically available open-source navigation and mapping dataset called Brno Urban Dataset. Finally, it covers the description of the custom-made software tools, the Atlas Fusion and the Robotic Template Libarary that the author used to manipulate the multimodal data.
Keywords:
dataset; detekce objektů; Multimodální data; neuronové sítě; senzorická fúze; senzorický rámec; strojové učení; transfer learning; Dataset; Machine Learning; Multimodal Data; Neural Networks; Object Detection; Sensory Framework; Sensory Fusion; Transfer Learning
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/203255