Název:
Detekce lidské řeči v audio nahrávce
Překlad názvu:
Voice Activity Detection
Autoři:
Břenek, Roman ; Grézl, František (oponent) ; Matějka, Pavel (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2011
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Tato práce se zabývá technikami detekce lidské řeči v nahrávkách. Je nutné při rozpoznávání správně klasifikovat všechny neřečové segmenty a naopak rozpoznat veškerou řeč i v hlučných a zašuměných prostředích. V práci je popsán celý proces rozpoznávání, tzn. digitalizace audio signálu, extrakce příznaků, trénování klasifikátoru, rozpoznávání a samotné vyhodnocení a úpravy před vyhodnocením. Pro rozpoznávání byly použity tři systémy, z nichž jeden je založen na fonémovém rozpoznávání pomocí neuronových sítí, další dva jsou založené na GMM, přičemž každý systém byl testován na třech datových sadách - Tactical Speaker Identification Speech Corpus (TSID), Ham Radio (HR) a Rich Transcription Evaluation (RT05-RT07). Nejlepší výsledky každého systému jsou pak zhodnoceny i s výsledky třetích stran.
This thesis describes techniques for voice activity detection in audio recordings. It is necessary to correctly classify all non-speech segments and recognize speech with noisy background. The whole process of voice activity detection (VAD) is described in this thesis, i.e. digitizing audio signal, feature extraction, training of the system, post-processing and final evaluation. There are three different systems compared within the thesis . The first one is based on phoneme recognition using neural network, the other two are variations of Gaussian Mixture Models (GMM). Each system was tested on three data sets - Tactical Speaker Identification Speech Corpus (TSID), Ham Radio (HR) and Rich Transcription Evaluation (RT05-RT07). The best results of each system are compared with the results of the third side.
Klíčová slova:
detekce řeči; extrakce příznaků; fonémový rozpoznávač; GMM trénování; HR; RT; TSID; VAD; feature extraction; GMM; HR; phoneme recognizer; RT; TSID; VAD; voice activity detection
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/55710