Original title:
Vision transformery pro rozpoznávání tváří
Translated title:
Vision Transformers for Facial Recognition
Authors:
Strýček, Šimon ; Kišš, Martin (referee) ; Špaňhel, Jakub (advisor) Document type: Master’s theses
Year:
2024
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Tato práce se zabývá aplikací architektur neuronových sítí na bázi vision transformer (ViT) v oblasti rozpoznávání tváří. Práce se soustředí na průzkum existujících moderních ViT architektur. To zahrnuje experimenty s existujícími implementacemi, alternativními druhy dat a hledání optimálních parametrů pro trénink. Cílem této práce je prokázat potenciál vision transformerů konkurovat již dlouho dominujícím konvolučním neuronovým sítím právě v tomto oboru. Výstupem je analýza provedených experimentů, demonstrace kladů a záporů moderních architektur ViT a nalezení optimálních podmínek pro jejich využití v úlohách rozpoznávání tváří.
This thesis focuses on applying vision transformer-based neural networks to face recognition related tasks. It focuses on exploring modern vision transformer (ViT) architectures, experimenting with alternative data, and finding the suitable parameters to train ViTs to compete with the already established dominance of convolutional neural networks in face recognition. The goal of this work was to show the suitability of vision-transformers for face recognition. The output of this work contains results of various experiments, demonstrations of benefits and drawbacks of some of the modern and popular ViTs, the definition of an optimal setup when wanting to employ vision transformers for facial recognition, and interesting observations from working with vision transformers.
Keywords:
face recognition; image processing; neural networks; vision transformer; neuronové sítě; rozpoznávání tváří; vision transformer; zpracování obrazu
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: https://hdl.handle.net/11012/248899