Název:
Robustní detekce řečové aktivity
Překlad názvu:
Robust Speech Activity Detection
Autoři:
Popková, Anna ; Plchot, Oldřich (oponent) ; Matějka, Pavel (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2019
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Cílem této práce je navrhnout a vytvořit robustní detektor řečové aktivity, který je schopen detekovat řeč v různých jazycích, v prostředí se šumem a v prostředí s hudbou na pozadí. Tento problém jsem se rozhodla vyřešit použitím neuronové sítě jako klasifikačního modelu, který vstupním úsekům nahrávky přiřazuje jednu ze čtyř možných tříd - ticho, řeč, hudbu nebo hluk. Výsledný nástroj je schopný detekovat řeč v minimálně 12-ti jazycích. Řeč na hudebním pozadí až s 88 % úspěšností a výsledky úspěšnosti systému na zašuměných datech dosahují od 84 % (5 dB SNR) do 88 % (20 dB SNR). Tento nástroj je možné použít pro detekci řečové aktivity v různých výzkumných oblastech zpracování řeči. Hlavním jeho přínosem je eliminace hudby, která když odstraněna není, výrazně zvyšuje chybovost systémů na rozpoznávání mluvčího či řeči.
The aim of this work is to design and create a robust speech activity detector that is able to detect speech in different languages, in a noise environment and with music on background. I decided to solve this problem by using a neural network as a classification model that assigns one of the four possible classes - silence, speech, music, or noise to the input of audio recording. The resulting tool is able to detect the speech in at least 12 languages. Speech with musical background up to 88 % accuracy and system success on noisy data reaches from 84 % (5 dB SNR) to 88 % (20 dB SNR). This tool can be used for speech activity detection in various research areas of speech processing. The main contribution is the elimination of music, which when not eliminated, significantly increases the error rate of systems for speaker identification or speech recognition.
Klíčová slova:
Hudba; Neuronová síť; Robustní detekce řečové aktivity; SNR.; Šum; Music; Neural Network; Noise; Robust voice activity detection; SNR.
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/180389