Název:
Použití self-supervised learning pro rozpoznání sportovních pozic v obraze
Překlad názvu:
Self-Supervised Learning for Recognition of Sports Poses in Image
Autoři:
Olekšák, Samuel ; Kocur, Viktor (oponent) ; Herout, Adam (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2022
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Táto práca demonštruje spôsob, ako minimalizovať množstvo potrebných označených trénovacích dát pri klasifikácií športových pozícií s použitím neurónovej siete trénovanej metódou contrastive self-supervised learning. Trénovanie prebieha v dvoch etapách. V prvej sa trénuje extraktor príznakov, ktorý využíva neoznačené trénovacie obrázky extrahované z nahrávok cvičení z viacerých uhlov. V druhej etape sa s využitím malého množstva označených dát trénuje jednoduchý klasifikátor napojený na extraktor príznakov. Práca pojednáva o klasifikácií v kontexte jogových póz, avšak výsledné riešenie sa dá jednoducho aplikovať aj na iné športy v prípade získania vhodnej dátovej sady. Pri návrhu riešenia je kladený dôraz na výkon výsledného modelu, aby mohol byť použiteľný v mobilných zariadeniach. Výsledný model na dátovej sade so štyrmi označenými obrázkami na každú jogovú pózu dosiahol s využitím augmentácií vstupných dát úspešnosť 76 %. Na väčšej dátovej sade s 800 označenými obrázkami na všetky pozície je úspešnosť 82 %.
This thesis demonstrates a solution for minimizing the amount of necessary labelled training data in the classification of sports poses using a neural network trained with contrastive self-supervised learning. Training consists of two stages. The first stage trains a feature extractor which uses unlabelled training images extracted from recordings of exercises from multiple viewpoints. In the second stage, using a small amount of labelled data, a simple classifier connected to the feature extractor is trained. The thesis discusses classification in the context of yoga poses, however, the final solution can be easily applied to any other sport in case of obtaining a suitable dataset. During the development of the solution, emphasis is placed on the performance of the resulting model so that it can be used on mobile devices. The resulting model reached an accuracy of 76 % using augmentations with a data set containing four labelled images per yoga pose. On a larger data set with 800 labelled images for all poses, an accuracy of 82 % is reached.
Klíčová slova:
kontrastívne učenie; odhad pózy; rozpoznávanie obrazu; self-supervised learning; contrastive learning; image recognition; pose estimation; self-supervised learning
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/207274