Název:
Kódování řeči na velmi nízkých bitových rychlostech založené na neuronových sítích
Překlad názvu:
Very Low Bit-Rate Speech Coding Based on Neural Networks
Autoři:
Jochman, Stanislav ; Malenovský, Vladimír (oponent) ; Černocký, Jan (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2023
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [eng][cze]
Vrámci tejto práce sme skúmali možnosti zlepšenia kvality zvuku produkovaným pomocou neurónovej siete LPCNet. Analyzovali sme vplyv použitia dátových setov zameraných na cieľový jazyk a ich vplyv na kvalitu výsledného zvuku. Pre meranie kvality kódovania reči sme využili hodnotiaci systém WARP-Q. Cieľom našej práce bolo navrhnúť vylepšenie trénovacieho dátového setu a použitie postfilterov pre zlepšenie kvality zvuku. Naše výsledky ukazujú merateľné zlepšenia s využitím malého slovenského dátového setu. Rovnako sme zaznamenali, že využitie dolnopriepustného filteru a filtra zlepšujúceho formanty zlepšilo kvalitu výsledného zvuku.
During this work, we focused on replicating and enhancing results by using the neural network LPCNet. We compared audio quality from the pre-trained model and our models trained on smaller datasets, thus reducing training time and improving audio quality. We determined that using a language-specific dataset can produce greater results in that specific language than a big general model. We measured the quality of speech of the pre-trained model and our models using WARPQ ranking score 5.2.4. We also examined possibilities of improving audio quality by filtering output audio using output post-filters and formant-enhancing filters. Our results show measurable improvement in audio quality using the suggested methods.
Klíčová slova:
coding; compression; filtering; LPCNet; neural network; prediction; speech coder; vocoder; filtrovanie; kompresia; kódovanie; LPCNet; neurónové siete; predikcia; rečový kóder; vocodér
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/213748