Original title:
Použití self-supervised learning pro rozpoznání sportovních pozic v obraze
Translated title:
Self-Supervised Learning for Recognition of Sports Poses in Image
Authors:
Konečný, Daniel ; Beran, Vítězslav (referee) ; Herout, Adam (advisor) Document type: Master’s theses
Year:
2022
Language:
eng Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[eng][cze]
Cílem této práce je rozpoznání sportovních pozic v obrazových datech za pomocí přístupu self-supervised learning pro docílení vyšší úspěšnosti klasifikace s použitím malého množství anotovaných vzorků. Učení za pomocí self-supervision je docíleno snímky stejné scény z různých úhlů ve stejných a různých časech. Konvoluční neuronová síť naučená s pomocí funkce triplet loss zakóduje sportovní pozice do latentních vektorů a plně propojená neuronová síť tyto vektory klasifikuje. Model natrénovaný pomocí self-supervised learning dosahuje o 30-40 % vyšší úspěšnosti než supervised model, když je trénovaný pouze na desítkách či jednotkách označených snímků z každé třídy. Hlavními přínosy této práce jsou nástroje pro přípravu datové sady pro tento specifický typ učení, dvě datové sady s více anotacemi a implementované modely využívající self-supervised learning. Výsledky ukazují, že učení za pomocí self-supervision je vhodný přístup pro řešení klasifikace za použití velmi malého množství označených snímků.
The goal of this thesis is to recognize sports poses in image data with a self-supervised learning approach to achieve high classification accuracy even with a low number of annotated samples. Self-supervision is obtained by using images of the same scene from multiple viewpoints at identical and different times. A convolutional neural network trained with triplet loss learns embedding vectors of sports poses and a dense neural network classifies them. The proposed self-supervised model achieves classification accuracy higher by 30-40 % than a supervised model when there are only tens or ones of annotated training samples from each class. The main contributions of this thesis are a set of semi-automatic tools to prepare a dataset for the specific training process, two datasets with sets of labels for classification, and implemented models for specific self-supervised learning. The results show that self-supervised learning is a meaningful approach for solving classification problems with very few labeled samples.
Keywords:
konvoluční neuronová síť; obraz; počítačové vidění; rozpoznání; self-supervised learning; sportovní pozice; strojové učení; time-contrastive learning; computer vision; convolutional neural network; image; machine learning; recognition; self-supervised learning; sports pose; time-contrastive learning
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/208383