Original title:
Automatické tagování hudebních děl pomocí metod strojového učení
Translated title:
Automatic tagging of musical compositions using machine learning methods
Authors:
Semela, René ; Galáž, Zoltán (referee) ; Kiska, Tomáš (advisor) Document type: Master’s theses
Year:
2020
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií Abstract:
[cze][eng]
Systémy pro automatické tagování hudebních děl jsou jednou z mnoha výzev pro obor strojového učení, a to zejména z hlediska komplexnosti celé této problematiky. Praktické uplatnění mohou tyto systémy nalézat zejména v obsahové analýze hudebních děl nebo při třídění obsahu hudebních knihoven. Tato práce se zabývá návrhem, trénováním, testováním a evaluací architektur umělých neuronových sítí pro automatické tagování hudebních děl. V úvodu je pozornost věnována položení ucelených teoretických základů pro tuto problematiku. V praktické části je pak navrženo 8 architektur neuronových sítí (4 plně konvoluční a 4 konvolučně-rekurentní). Tyto architektury jsou následně natrénovány za pomoci MagnaTagATune Dataset a mel spektrogramu a následně je provedeno jejich testování a evaluace. Nejlepších výsledků zde dosahuje čtyřvrstvá konvolučně-rekurentní neuronová síť (CRNN4) s hodnotou ROC-AUC = 0,9046 ± 0,0016. Jako další krok praktické části je vytvořen kompletně nový Last.fm Dataset 2020, který je sestaven díky napojení na API služeb Last.fm a Spotify. Tento nový dataset čítá 100 tagů a 122877 skladeb. Nejúspěšnější architektury jsou na tomto novém datasetu natrénovány, otestovány a evaluovány, a je tak položena základní hranice hodnot ROC-AUC, kterých lze za pomoci tohoto datasetu dosáhnout. Nejlepších výsledků zde dosahuje šestivrstvá plně konvoluční neuronová síť (FCNN6) s hodnotou ROC-AUC = 0,8590 ± 0,0011. Na závěr celé práce je vytvořena jednoduchá aplikace pro otestování jednotlivých architektur neuronových sítí na uživatelem vloženém zvukovém souboru. Práce se svými výsledky vyrovnává světovým pracím na stejné téma a přináší několik nových poznatků a inovací. Z hlediska inovací je zejména dosaženo podstatného snížení komplexnosti jednotlivých architektur neuronových sítí v porovnání se světovými pracemi při zachování podobných výsledků.
One of the many challenges of machine learning are systems for automatic tagging of music, the complexity of this issue in particular. These systems can be practically used in the content analysis of music or the sorting of music libraries. This thesis deals with the design, training, testing, and evaluation of artificial neural network architectures for automatic tagging of music. In the beginning, attention is paid to the setting of the theoretical foundation of this field. In the practical part of this thesis, 8 architectures of neural networks are designed (4 fully convolutional and 4 convolutional recurrent). These architectures are then trained using the MagnaTagATune Dataset and mel spectrogram. After training, these architectures are tested and evaluated. The best results are achieved by the four-layer convolutional recurrent neural network (CRNN4) with the ROC-AUC = 0.9046 ± 0.0016. As the next step of the practical part of this thesis, a completely new Last.fm Dataset 2020 is created. This dataset uses Last.fm and Spotify API for data acquisition and contains 100 tags and 122877 tracks. The most successful architectures are then trained, tested, and evaluated on this new dataset. The best results on this dataset are achieved by the six-layer fully convolutional neural network (FCNN6) with the ROC-AUC = 0.8590 ± 0.0011. Finally, a simple application is introduced as a concluding point of this thesis. This application is designed for testing individual neural network architectures on a user-inserted audio file. Overall results of this thesis are similar to other papers on the same topic, but this thesis brings several new findings and innovations. In terms of innovations, a significant reduction in the complexity of individual neural network architectures is achieved while maintaining similar results.
Keywords:
auto-tagging; automatic tagging; autotagging; classification; content analysis; convolutional neural network; convolutional recurrent neural network; Last.fm Dataset 2020; machine learning; MagnaTagATune Dataset; mel spectrogram; music; music information retrieval; neural network; recurrent neural network; automatické tagování; hudba; klasifikace; konvoluční neuronová síť; konvolučně-rekurentní neuronová síť; Last.fm Dataset 2020; MagnaTagATune Dataset; mel spektrogram; neuronová síť; obsahová analýza; rekurentní neuronová síť; strojové učení; zpětnovazební neuronová síť; získávání hudební informace
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/189404