|
Dance Recognition from Audio Recordings
Pavlín, Tomáš ; Čech, Jan (vedoucí práce) ; Moudřík, Josef (oponent)
Navrhujeme metodu založenou na konvolučních sítích (CNN) pro klasifikování deseti druhů společenských tanců ze zvukových záznamů, pěti latinskoamerických a pěti standardních. Konkrétně rozpoznáváme tance cha-cha, jive, paso doble, rumba, samba, quickstep, slowfox, waltz, tango a valčík. Využíváme spektrogramy zvukových signálů a používáme je jako obrázky, které jsou vstupem CNN. Klasifikace je provedena nezávisle na pětisekundových segmentech spektrogramů pomocí posuvného okénka a výsledky jsou poté agregovány. Metodu testujeme na následujících datasetech: Na zveřejněném Extended Ballroom datasetu (Marchand and Peeters, 2016) a dvou námi vytvořených datasetech, jednom s nahrávkami studiové kvality a dalším s nahrávkami na mobilní telefon. Pro zmíněné datasety jsme postupně dosáhli úspěšnosti 93.9%, 96.7% a 89.8%. Naše řešení funguje v reálném čase a jako ukázku jsme implementovali webovou aplikaci.
|