Název:
Odhad impulsní odezvy místnosti z řečového signálu
Překlad názvu:
Room Impulse Response Estimation from Speech Signal
Autoři:
Gregor, Adam ; Szőke, Igor (oponent) ; Černocký, Jan (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2020
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [eng][cze]
Jakýkoliv zvuk šířící se místností je zkreslen impulsní odezvou této místnosti. Měření těchto impulsních odezev bylo vždy důležitou úlohou akustiky, která v dnešní době ještě nabyla na důležitosti, díky možnosti požití impulsních odezev při augmentaci dat pro účely trénování automatických rozpoznávačů řeči. Standardně je impulsní odezva místnosti měřena za pomoci čisté a zkreslené formy zvukového signálu. To je však v praxi nepraktické (například u domácích asistentů či chytrých domů), neboť zde je k dispozici jen zkreslený signál. Tato bakalářská práce se zabývá odhadem impulsní odezvy "naslepo, pouze pomocí zkresleného řečového signálu. Nejdříve jsme za použití datasetu BUT ReverbDB re-implementovali standardní techniky pro měření impulsní odezvy z čistého/zkresleného signálu. Poté jsme testovali dvě techniky odhadující impulsní odezvu místnosti pouze ze zkreslené řeči. První technika k tomu používá impulsní fonémy ve zkreslené řeči, u kterých se předpokládá, že se podobají impulsním odezvám místností. Bylo testováno průměrování a dekonvoluce těchto fonémů za účelem zvýšení kvality a robustnosti odhadu. Druhá technika využívá regresní neuronové sítě generující impulsní odezvy místností z řeči na vstupu. Ačkoliv žádná z navrhovaných technik nedosahuje odhadů na úrovni standardních měření, mají tyto odhady potenciál při augmentaci dat pro trénování automatických rozpoznávačů řeči.
When travelling in a room, any sound is distorted by a room impulse response (RIR). Determining RIR has always been an important task in acoustics, but nowadays, it is even more important, as RIR can be used to augment data for training automatic speech recognition (ASR) systems. Classically, a RIR is estimated from a pair of clean and reverberated sound signals. This is however not practical for real scenarios (such as personal assistants, smart homes, etc.), as the clean signal is not available. The aim of the bachelor thesis is to investigate ''blind'' RIR estimation only from a reverberated speech signal. We have used the BUT ReverbDB data set and first, re-implemented techniques for classical clean-reverberated signals estimation of RIRs. Then, we investigated two techniques for RIR estimation only from a reverberated signal. The first technique uses reverberated impulse-like phonemes in speech which are expected to resemble RIR. Averaging and deconvolution of these phonemes were tested to improve the quality and robustness of the estimation. The second technique makes use of a regression neural networks trained to produce the RIR from a speech input. Although none of the techniques reaches the quality of classical measurement, the estimated RIRs have the potential to help in augmenting data for ASR system training.
Klíčová slova:
Room Impulse Response Estimation; Speech signal; Odhad Impulsní odezvy místnosti; Řečový signál
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/191492