Název: Neural Networks With Dilated Convolutions For Sound Event Recognition
Autoři: Miklanek, Stepan
Typ dokumentu: Příspěvky z konference
Jazyk: eng
Nakladatel: Vysoké učení technické v Brně, Fakulta elektrotechniky a komunikačních technologií
Abstrakt: Convolutional neural networks, most commonly deployed in image classification tasks,typically use square-shaped convolutional kernels, which are well suited for feature extraction fromtwo-dimensional data. This study explores the effect of utilizing spectrally aware dilated convolutionsspecialized for sound event recognition. By extending the base kernels in the time or the frequencydimension, the features extracted from the spectral audio representations should, in theory, bettercapture the temporal and timbral information of different sound events. The baseline neural networkmodel with squared kernels was compared against three models, which used an increasing dilationfactor in the subsequent convolutional layers. The three models were purposefully tuned to focustowards the frequency and time feature extraction. The results have shown that the models withdilated convolutions performed noticeably better in comparison with the baseline model.
Klíčová slova: sound event recognition; convolutional neural networks; dilated convolution
Zdrojový dokument: Proceedings I of the 27st Conference STUDENT EEICT 2021: General papers, ISBN 978-80-214-5942-7

Instituce: Vysoké učení technické v Brně (web)
Informace o dostupnosti dokumentu: Plný text je dostupný v Digitální knihovně VUT.
Původní záznam: http://hdl.handle.net/11012/200699

Trvalý odkaz NUŠL: http://www.nusl.cz/ntk/nusl-447744


Záznam je zařazen do těchto sbírek:
Školství > Veřejné vysoké školy > Vysoké učení technické v Brně
Konferenční materiály > Příspěvky z konference
 Záznam vytvořen dne 2021-07-25, naposledy upraven 2021-08-22.


Není přiložen dokument
  • Exportovat ve formátu DC, NUŠL, RIS
  • Sdílet