Original title:
Kódování řeči na velmi nízkých bitových rychlostech založené na neuronových sítích
Translated title:
Very Low Bit-Rate Speech Coding Based on Neural Networks
Authors:
Jochman, Stanislav ; Malenovský, Vladimír (referee) ; Černocký, Jan (advisor) Document type: Bachelor's theses
Year:
2023
Language:
eng Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[eng][cze]
Vrámci tejto práce sme skúmali možnosti zlepšenia kvality zvuku produkovaným pomocou neurónovej siete LPCNet. Analyzovali sme vplyv použitia dátových setov zameraných na cieľový jazyk a ich vplyv na kvalitu výsledného zvuku. Pre meranie kvality kódovania reči sme využili hodnotiaci systém WARP-Q. Cieľom našej práce bolo navrhnúť vylepšenie trénovacieho dátového setu a použitie postfilterov pre zlepšenie kvality zvuku. Naše výsledky ukazujú merateľné zlepšenia s využitím malého slovenského dátového setu. Rovnako sme zaznamenali, že využitie dolnopriepustného filteru a filtra zlepšujúceho formanty zlepšilo kvalitu výsledného zvuku.
During this work, we focused on replicating and enhancing results by using the neural network LPCNet. We compared audio quality from the pre-trained model and our models trained on smaller datasets, thus reducing training time and improving audio quality. We determined that using a language-specific dataset can produce greater results in that specific language than a big general model. We measured the quality of speech of the pre-trained model and our models using WARPQ ranking score 5.2.4. We also examined possibilities of improving audio quality by filtering output audio using output post-filters and formant-enhancing filters. Our results show measurable improvement in audio quality using the suggested methods.
Keywords:
filtrovanie; kompresia; kódovanie; LPCNet; neurónové siete; predikcia; rečový kóder; vocodér; coding; compression; filtering; LPCNet; neural network; prediction; speech coder; vocoder
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/213748