Název:
Vliv akustiky prostředí na úspěšnost rozpoznávače řeči
Překlad názvu:
Impact of Environment Acoustics on Speech Recognition Accuracy
Autoři:
Paliesek, Jakub ; Karafiát, Martin (oponent) ; Szőke, Igor (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2021
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Táto diplomová práca sa venuje vplyvom akustiky miestnosti na úspešnosť rozpoznávania reči. Na vyhodnotenie experimentov bol použitý rečový korpus LibriSpeech a databáza impulzných odoziev a šumu ReverbDB. Skúmané rozpoznávače reči boli založené na Kaldi recepte Mini LibriSpeech. Najskôr bolo zmerané, ako sa rozpoznávač dokáže naučiť rozpoznávať vo vybraných prostediach použitím rovnakých akustických podmienok pri trénovaní aj testovaní. Následne bolo experimentované s architektúrou systému s cieľom dosiahnuť čo najlepšiu robustnosť voči rôznym novým podmienkam za použitia metód pre adaptáciu na prostredie pomocou r-vektorov a i-vektorov. Bol ukázaný prínos nedávno predstavenej techniky r-vektorov aj pri použití augmentácie dát pomocou reálnych impulných odoziev.
This diploma thesis deals with impact of room acoustics on automatic speech recognition (ASR) accuracy. Experiments were evaluated on speech corpus LibriSpeech and database of impulse responses and noise called ReverbDB. Used ASRs were based on Mini LibriSpeech recipe for Kaldi. First it was examined how well can ASR learn to transcribe in selected environments by using the same acoustic conditions during training and testing. Next, experiments were carried out with modifications of ASR architecture in order to achieve better robustness against new conditions by using methods for adapation to room acoustics - r-vectors and i-vectors. It was shown that recently proposed method of r-vectors is beneficial even when using real impulse responses for data augmentation.
Klíčová slova:
adaptácia; akustika miestnosti; impulzná odozva; rozpoznávanie reči; adaptation; impulse response; room acoustics; speech recognition
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/200173