Original title:
Identifikace pauz v rušeném řečovém signálu
Translated title:
Pause Identification in Degraded Speech Signal
Authors:
Podloucká, Lenka ; Balík, Miroslav (referee) ; Smékal, Zdeněk (advisor) Document type: Master’s theses
Year:
2008
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií Abstract:
[cze][eng]
Tato diplomová práce se zabývá identifikací pauz v rušeném řečovém signálu. Je zde popsán charakter řečového signálu a koncepce jeho zpracování. Cílem diplomové práce bylo navrhnout metodu spolehlivého určení úseků bez řečové aktivity (pauz) jak pro řeč bez přítomnosti šumu a rušení, tak i ze směsi řeči a nežádoucího rušení. Pro identifikaci pauz bylo realizováno pět detektorů v programovém prostředí MATLAB. V časové oblasti to byl energetický detektor, ve spektrální oblasti dvoukrokový detektor využívající v prvním kroku energetické vlastnosti signálu, ve druhém výpočtu statistických veličin. V kepstrální oblasti byly realizovány tři detektory, dva s využitím integrálního algoritmu a detekce třetího byla založena na diferenciálním algoritmu. Robustnost detektorů byla testována pro různé typy rušení a jejich úrovně odstupu signálu od šumu (Signal to Noise Ratio – SNR). Pro vyhodnocení úspěšnosti detekce byly sestaveny ROC křivky, ve kterých byl měnícím se parametrem rušivý signál.
This diploma thesis deals with pause identification with degraded speech signal. The speech characteristics and the conception of speech signal processing are described here. The work aim was to create the reliable recognizing method to establish speech and non-speech segments of speech signal with and without degraded speech signal. The five empty pause detectors were realized in computing environment MATLAB. There was the energetic detector in time domain, two-step detector in spectral domain, one-step integral detector, two-step integral detector and differential detector in cepstrum. The spectral detector makes use of energetic characteristics of speech signal in first step and statistic analysis in second step. Cepstral detectors make use of integral or differential algorithms. The detectors robustness was tested for different types of speech degradation and different values of Signal to Noise Ratio. The test of influence different speech degradation was conducted to compare non-speech detection for detectors by ROC (Receiver Operating Characteristic) Curves.
Keywords:
empty pause detection; ROC Curves; Signal to Noise Ratio; speech signal; voice activity detectors; detekce pauz; detektory řečové aktivity; odstup signálu od šumu SNR; ROC charakteristiky; řečový signál
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/16404