Název:
Nízko-dimenzionální faktorizace pro "End-To-End" řečové systémy
Překlad názvu:
Low-Dimensional Matrix Factorization in End-To-End Speech Recognition Systems
Autoři:
Gajdár, Matúš ; Grézl, František (oponent) ; Karafiát, Martin (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2020
Jazyk:
slo
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [slo][eng]
Práca sa zaoberá problematikou rozpoznávania reči s pomocou učenia neurónových sietí, na ktoré je aplikovaný algoritmus nízko-dimenzionálnej faktorizácie. V práci je popísaná implementácia časovo oneskorených neurónových sietí s faktorizáciou (TDNN-F) a bez nej (TDNN) v jazyku Pytorch. Následne je porovnávaná s už existujúcou implementáciou v nástroji Kaldi, kde boli dosiahnuté podobné výsledky v rámci experimentovania s rôznymi architektúrami. V poslednej kapitole popisujeme dopad nízko-dimenzionálnej faktorizácie na 'End-to-End' (E2E) rečové systémy a taktiež modifikovanie systému s TDNN(-F) sieťami. Pri experimentoch sa nám v určitých nastaveniach sietí s faktorizáciou podarilo zlepšiť výsledky.Súčasne sme pomocou TDNN(-F) sietí dokázali zmenšiť komplexnosť učenia redukciou veľkosti siete.
The project covers automatic speech recognition with neural network training using low-dimensional matrix factorization. We are describing time delay neural networks with factorization (TDNN-F) and without it (TDNN) in Pytorch language. We are comparing the implementation between Pytorch and Kaldi toolkit, where we achieve similar results during experiments with various network architectures. The last chapter describes the impact of a low-dimensional matrix factorization on End-to-End speech recognition systems and also a modification of the system with TDNN(-F) networks. Using specific network settings, we were able to achieve better results with systems using factorization. Additionally, we reduced the complexity of training by decreasing network parameters with the use of TDNN(-F) networks.
Klíčová slova:
Automatic speech recognition; convolution neural networks; E2E; ESPnet; Kaldi; low-dimensional matrix factorization; Pytorch; TDNN; TDNN-F
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/192526