Název:
Re-identifikace vozidel pomocí vision transformerů
Překlad názvu:
Vehicle Re-Identification Using Vision Transformers
Autoři:
Jelínek, Zdeněk ; Hradiš, Michal (oponent) ; Špaňhel, Jakub (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2023
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Hlavním cílem této práce bylo zjištění možností vision transformerů při re-identifikaci vozidel. V této oblasti počítačového vidění doposud dominují konvoluční neuronové sítě. Celkem byly vyzkoušeny dva modely - TransReID a CMT. TransReID je model založený čistě na vision transformerech a byl vytvořený přímo pro re-identifikaci vozidel. Hlavní část experimentů s tímto modelem jsem věnoval využití klíčových bodů na vozidle. Při správné extrakci oblastí okolo klíčových bodů a využití postprocessingu jsem dosáhl state-of-the-art výsledků. Model CMT je kombinací konvolučních sítí a transformerů, který nebyl vytvořen pro re-identifikaci vozidel. Model jsem upravil a provedl s ním rozsáhlé experimenty pro získání nejlepší konfigurace pro re-identifikaci vozidel. Modely jsem vyhodnotil na standardních datasetech VeRi-776, VehicleID, CityFlowV2-ReID a CarsReId74k a porovnal se state-of-the-art modely. S modelem CMT jsem dosáhl na datasetu VeRi-776 nejlepšího výsledku 0,860 na metrice mAP a na datasetu VehicleID jsem dosáhl nejlepšího výsledku 97,6% na metrice Rank5.
The main objective of this thesis was to investigate the potential of vision transformers in vehicle re-identification. Convolutional neural networks have so far dominated this area of computer vision. In total, two models have been tested - TransReID and CMT. TransReID is a model based purely on vision transformers and was created specifically for vehicle re-identification. The main part of the experiments with this model was devoted to the use of key points on the vehicle. With proper extraction of the regions around the key points and the use of post-processing, I achieved state-of-the-art results. The CMT model is a combination of convolutional networks and transformers that was not designed for vehicle re-identification. I modified the model and conducted extensive experiments with it to obtain the best configuration for vehicle re-identification. I evaluated the models on the standard datasets VeRi-776, VehicleID, CityFlowV2-ReID and CarsReId74k and compared with state-of-the-art models. With the CMT model, I achieved the best result of 0.860 on the mAP metric on the VeRi-776 dataset and the best result of 97.6% on the Rank5 metric on the VehicleID dataset.
Klíčová slova:
CarsReId74k; CityFlowV2-ReID; CMT; re-identifikace vozidel; TransReID; VehicleID; VeRi-776; vision transformer; CarsReId74k; CityFlowV2-ReID; CMT; TransReID; vehicle re-identification; VehicleID; VeRi-776; vision transformer
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/211915