Název:
Rozpoznávání tance ze zvukových záznamů
Překlad názvu:
Dance Recognition from Audio Recordings
Autoři:
Pavlín, Tomáš ; Čech, Jan (vedoucí práce) ; Moudřík, Josef (oponent) Typ dokumentu: Diplomové práce
Rok:
2020
Jazyk:
eng
Abstrakt: [eng][cze] We propose a CNN-based approach to classify ten genres of ballroom dances given audio recordings, five latin and five standard, namely Cha Cha Cha, Jive, Paso Doble, Rumba, Samba, Quickstep, Slow Foxtrot, Slow Waltz, Tango and Viennese Waltz. We utilize a spectrogram of an audio signal and we treat it as an image that is an input of the CNN. The classification is performed independently by 5-seconds spectrogram segments in sliding window fashion and the results are then aggregated. The method was tested on following datasets: Publicly available Extended Ballroom dataset collected by Marchand and Peeters, 2016 and two YouTube datasets collected by us, one in studio quality and the other, more challenging, recorded on mobile phones. The method achieved accuracy 93.9%, 96.7% and 89.8% respectively. The method runs in real-time. We implemented a web application to demonstrate the proposed method.Navrhujeme metodu založenou na konvolučních sítích (CNN) pro klasifikování deseti druhů společenských tanců ze zvukových záznamů, pěti latinskoamerických a pěti standardních. Konkrétně rozpoznáváme tance cha-cha, jive, paso doble, rumba, samba, quickstep, slowfox, waltz, tango a valčík. Využíváme spektrogramy zvukových signálů a používáme je jako obrázky, které jsou vstupem CNN. Klasifikace je provedena nezávisle na pětisekundových segmentech spektrogramů pomocí posuvného okénka a výsledky jsou poté agregovány. Metodu testujeme na následujících datasetech: Na zveřejněném Extended Ballroom datasetu (Marchand and Peeters, 2016) a dvou námi vytvořených datasetech, jednom s nahrávkami studiové kvality a dalším s nahrávkami na mobilní telefon. Pro zmíněné datasety jsme postupně dosáhli úspěšnosti 93.9%, 96.7% a 89.8%. Naše řešení funguje v reálném čase a jako ukázku jsme implementovali webovou aplikaci.
Klíčová slova:
audio; ballroom; classification; CNN; dance; genre; music