Název:
Detekce Akustické Prostředí z Řeči
Překlad názvu:
Acoustic Scene Classification from Speech
Autoři:
Grepl, Filip ; Beneš, Karel (oponent) ; Matějka, Pavel (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2018
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Tato práce se zabývá vytvořením systému, jehož úkolem je z audio signálu rozpoznat, na jakém místě byla vstupní nahrávka pořízena. Klasifikátor je založen na vícevrstvé hustě propojené neuronové síti. Topologie neuronové sítě vychází ze základního systému, poskytovaného k soutěži DCASE. Pro její trénování a evaluaci je využita datová sada rovněž z této soutěže. Experimenty jsou prováděny zejména s reprezentací vlastností jednotlivých audio nahrávek a formátem vstupních dat. Za tímto účelem jsou využity Mel-filter bank, blok Mel-filter bank a MFCC příznaky. Experimenty, provedené v této práci, přinesly oproti základnímu systému soutěže DCASE vyšší přesnost klasifikace o 6.5 %. Celková úspěšnost systému tak dosáhla hodnoty 67.5 %.
This thesis deals with creating a system whose task is to recognize what type of location the recording was created at by analyzing the audio signal. The classifier is based on a multi-layer, fully connected neural network. The topology of the neural network is based on the baseline system provided for the DCASE competition. A dataset from this competition is also used for training and evaluating the neural network. The experiments are performed in particular with the representation of the properties of the audio records and with the format of the input data of the neural network. For this purpose, Mel-filter bank, block Mel-filter bank and MFCC flags are used. The experiments performed in this thesis brought a classification accuracy increased by 6.5 % compared to the baseline system of DCASE. Overall system success rate reached 67.5 %.
Klíčová slova:
akustická klasifikace scény; delta koeficienty; Mel-filter bank; Mel-frequency cepstral coefficients; soutěž DCASE; Voting; vícevrstvá hustě propojená neuronová síť; acoustic scene classification; competition DCASE; delta coefficients; Mel-filter bank; Mel-frequency cepstral coefficients; multilayer fully connected neural network; Voting
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/85179