Název:
Recognition of Audio Events Using Deep Neural Networks
Překlad názvu:
Recognition of Audio Events Using Deep Neural Networks
Autoři:
Uchytil, Albert ; Černocký, Jan (oponent) ; Schwarz, Petr (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2016
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [eng][cze]
Zvuk je nositelem velkého množství informací. S rostoucí technickou úrovní společnosti se zvyšuje množství zvukových dat. Čím více dat máme, tím hůře se člověku zpracovávají. Tato práce se zabývá problematikou rozpoznávání zvukových událostí pomocí neuronových sítí. Konkrétně klasifikaci fonémů a jejich kategorií. Jako klasifikátor se používá model vícevrstevného perceptronu. Práce zkoumá závislost přesnosti tohoto klasifikačního modelu na nastavených vlastnostech a hledá optimální nastavení pro maximální přesnost. Přesnost je ovlivněna také vstupními daty. Práce zkoumá vztah mezi typem vstupních dat a úspěšností klasifikačního programu, a porovnává vlastnosti vybraných typů vstupních dat. Použití kontextu u vstupních dat redukuje rozdíly námi vybranými typy vstupních prvků. Čím větší kontext použijeme, tím větší přesnosti docílíme. Problém nastává v situaci, kdy začne kontext zasahovat do jiných tříd. Pro naše experimenty jsme používali neuronovou síť se třemi skrytými vrstvami.
A lot of information is carried in sound. The amount of audio data is increasing with a growing technical level of the society. With more data, the task of processing it gets harder for human beings. This thesis is about recognition of audio events using neural networks. We focused on classification of phonemes and their categories. We used the Multilayer perceptron model as a classifier. We examined the relation between the accuracy of the model and its properties. Our goal was to estimate the network setup to obtain the best results. The accuracy is influenced by input features. We examine the relation between a type of the features and the success rate. The differences between input feature types are reduced by using the context. The bigger context we use the better results we get. Problem is, when contexts overlap, overlapping leads to a higher error rate. We have used a neural network with three hidden layers.
Klíčová slova:
Audio classification; Neural Networks; Phoneme classification; Sound recognition; Klasifikace audia; Klasifikace fonémů; Neuronové sítě; Rozpoznávání zvuku
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/62158