Název:
Použití self-supervised learning pro rozpoznání sportovních pozic v obraze
Překlad názvu:
Self-Supervised Learning for Recognition of Sports Poses in Image
Autoři:
Konečný, Daniel ; Beran, Vítězslav (oponent) ; Herout, Adam (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2022
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [eng][cze]
Cílem této práce je rozpoznání sportovních pozic v obrazových datech za pomocí přístupu self-supervised learning pro docílení vyšší úspěšnosti klasifikace s použitím malého množství anotovaných vzorků. Učení za pomocí self-supervision je docíleno snímky stejné scény z různých úhlů ve stejných a různých časech. Konvoluční neuronová síť naučená s pomocí funkce triplet loss zakóduje sportovní pozice do latentních vektorů a plně propojená neuronová síť tyto vektory klasifikuje. Model natrénovaný pomocí self-supervised learning dosahuje o 30-40 % vyšší úspěšnosti než supervised model, když je trénovaný pouze na desítkách či jednotkách označených snímků z každé třídy. Hlavními přínosy této práce jsou nástroje pro přípravu datové sady pro tento specifický typ učení, dvě datové sady s více anotacemi a implementované modely využívající self-supervised learning. Výsledky ukazují, že učení za pomocí self-supervision je vhodný přístup pro řešení klasifikace za použití velmi malého množství označených snímků.
The goal of this thesis is to recognize sports poses in image data with a self-supervised learning approach to achieve high classification accuracy even with a low number of annotated samples. Self-supervision is obtained by using images of the same scene from multiple viewpoints at identical and different times. A convolutional neural network trained with triplet loss learns embedding vectors of sports poses and a dense neural network classifies them. The proposed self-supervised model achieves classification accuracy higher by 30-40 % than a supervised model when there are only tens or ones of annotated training samples from each class. The main contributions of this thesis are a set of semi-automatic tools to prepare a dataset for the specific training process, two datasets with sets of labels for classification, and implemented models for specific self-supervised learning. The results show that self-supervised learning is a meaningful approach for solving classification problems with very few labeled samples.
Klíčová slova:
computer vision; convolutional neural network; image; machine learning; recognition; self-supervised learning; sports pose; time-contrastive learning; konvoluční neuronová síť; obraz; počítačové vidění; rozpoznání; self-supervised learning; sportovní pozice; strojové učení; time-contrastive learning
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/208383