Original title:
Vision Transformery pre vstavané platformy
Authors:
Nemčeková, Barbora Document type: Master’s theses
Year:
2023
Language:
slo Abstract:
[cze][eng] Tato práce se zabývá zkoumáním Transformerů vidění pro úlohu klasifikace obrazu, jejich optimalizaci, a nasazení na vybrané vestavěné zařízení. Na vybraných vestavěných zařízení se doposud pro klasifikaci obrazu používaly konvoluční neuronové sítě, avšak s revolucí ve zpracování přirozeného jazyka vznikl zájem o zkoumání transformerů i pro úlohy počítačového vidění. Práce experimentuje s různými druhy kvantizace modelů, jako je int8 kvantizace, int16x8 kvantizace, dynamická kvantizace a SmoothQuant metoda. Výsledky ukazují, že ne všechny transformery vidění je možné kvantizovat s dostatečnou přesností, a to ani při použití specializované metody SmoothQuant. Taktéž se ukázalo, že kvantizovaný transformer model není možné akcelerovat na NPU vybraných zařízení. Ze zkoumaných faktorů, jako je přesnost po optimalizaci modelu, latence a využití paměti na vestavěném zařízení, konvoluční neuronové sítě stále převyšují modely transformerů.This work focuses on investigation of Vision Transformers for the task of image classification, their optimization and deployment on selected embedded devices. Until now, convolutional neural networks have been used for image classification on the selected embedded devices, but with the revolution in natural language processing, there has been an interest in investigating transformers for computer vision tasks as well. The work experiments with different kinds of model quantization methods, such as int8 quantization, int16x8 quantization, dynamic quantization, and SmoothQuant method. The results show that not all transformers for computer vision can be quantized with sufficient accuracy, even when using the specialized SmoothQuant method. It also turned out that the quantized transformer model cannot be accelerated on the NPUs of selected devices. From the investigated factors, such as accuracy after model optimization, latency and memory usage on the embedded device, it emerged that for the task of image classification and model deployment on embedded devices, convolutional neural networks still outperform transformer models.
Keywords:
convolutional neural networks; embedded devices; image classification; klasifikace obrazu; konvoluční neuronové sítě; kvantizace neuronových sítí; neural network quantization; transformers; transformery; vestavěná zařízení