Original title:
Detekce Akustické Prostředí z Řeči
Translated title:
Acoustic Scene Classification from Speech
Authors:
Grepl, Filip ; Beneš, Karel (referee) ; Matějka, Pavel (advisor) Document type: Bachelor's theses
Year:
2018
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Tato práce se zabývá vytvořením systému, jehož úkolem je z audio signálu rozpoznat, na jakém místě byla vstupní nahrávka pořízena. Klasifikátor je založen na vícevrstvé hustě propojené neuronové síti. Topologie neuronové sítě vychází ze základního systému, poskytovaného k soutěži DCASE. Pro její trénování a evaluaci je využita datová sada rovněž z této soutěže. Experimenty jsou prováděny zejména s reprezentací vlastností jednotlivých audio nahrávek a formátem vstupních dat. Za tímto účelem jsou využity Mel-filter bank, blok Mel-filter bank a MFCC příznaky. Experimenty, provedené v této práci, přinesly oproti základnímu systému soutěže DCASE vyšší přesnost klasifikace o 6.5 %. Celková úspěšnost systému tak dosáhla hodnoty 67.5 %.
This thesis deals with creating a system whose task is to recognize what type of location the recording was created at by analyzing the audio signal. The classifier is based on a multi-layer, fully connected neural network. The topology of the neural network is based on the baseline system provided for the DCASE competition. A dataset from this competition is also used for training and evaluating the neural network. The experiments are performed in particular with the representation of the properties of the audio records and with the format of the input data of the neural network. For this purpose, Mel-filter bank, block Mel-filter bank and MFCC flags are used. The experiments performed in this thesis brought a classification accuracy increased by 6.5 % compared to the baseline system of DCASE. Overall system success rate reached 67.5 %.
Keywords:
acoustic scene classification; competition DCASE; delta coefficients; Mel-filter bank; Mel-frequency cepstral coefficients; multilayer fully connected neural network; Voting; akustická klasifikace scény; delta koeficienty; Mel-filter bank; Mel-frequency cepstral coefficients; soutěž DCASE; Voting; vícevrstvá hustě propojená neuronová síť
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/85179