Název:
Moderní optimalizační metody pro interpolaci chybějících úseků v audio signálech
Překlad názvu:
Modern Optimization Methods for Interpolation of Missing Sections in Audio Signals
Autoři:
Mokrý, Ondřej ; Kowalski, Matthieu (oponent) ; Koldovský, Zbyněk (oponent) ; Rajmic, Pavel (vedoucí práce) Typ dokumentu: Disertační práce
Rok:
2024
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstrakt: [eng][cze]
Poškození audio signálů je v praxi běžným, avšak nežádoucím faktem. Ke ztrátě informace může dojít nevhodným záznamem (nízký vzorkovací kmitočet či dynamický rozsah), chybou přenosu (výpadek vzorků), poškozením média či z důvodu rušení. Odstraňování takových poruch je možné pomocí inverzních úloh. Tato práce se konkrétně zaměřuje na situaci, kdy jsou úseky audio signálu o délce v řádu desítek milisekund zcela ztraceny a cílem je chybějící vzorky interpolovat na základě kontextu a vhodného modelu signálu. První část dizertační práce se věnuje metodám konvexní i nekonvexní optimalizace, které hledají řešení interpolační úlohy na základě předpokladu řídkosti časově-kmitočtového spektra. Obecný základ i některé algoritmy jsou převzaté z literatury a přizpůsobené interpolační úloze, řada modifikací a experimentálních přístupů je originální. Druhá část práce je zaměřena na využití nezáporné faktorizace matic, s níž lze sestavit pravděpodobnostní model spektrogramu signálu a tento využít pro jeho interpolaci. Z tohoto modelu pak vychází úspěšný rekonstrukční algoritmus, k němuž jsou v této práci odvozeny dvě alternativní metody. Závěr práce se věnuje rozsáhlému experimentálnímu ověření funkčnosti metod na skupině hudebních signálů. S využitím objektivních ukazatelů kvality interpolovaného signálu je ukázáno, že v jednotlivých třídách metod vedou navržené modifikace ke znatelnému zlepšení kvality či zlepšení konvergence oproti metodám základním. V rámci studovaného rozsahu poškození pak zejména algoritmy využívající faktorizace konkurují současným nejlepším metodám pro interpolaci chybějících úseků audio signálu.
Damage to audio signals is in practice common, yet undesirable. Information loss can occur due to improper recording (low sample rate or dynamic range), transmission error (sample dropout), media damage, or because of noise. The removal of such disturbances is possible using inverse problems. Specifically, this work focuses on the situation where sections of an audio signal of length in the order of tens of milliseconds are completely lost, and the goal is to interpolate the missing samples based on the unimpaired context and a suitable signal model. The first part of the dissertation is devoted to convex and non-convex optimization methods, which are designed to find a solution to the interpolation problem based on the assumption of sparsity of the time-frequency spectrum. The general background and some algorithms are taken from the literature and adapted to the interpolation problem, many modifications and experimental approaches are original. The second part of the thesis focuses on the use of non-negative matrix factorization, with which a probabilistic model of the signal spectrogram can be constructed and used for the interpolation of the signal. This model is then used as the basis for a successful reconstruction algorithm, to which two alternative methods are derived in the present thesis. Finally, an extensive experimental validation of the methods on a group of musical signals is conducted. Using objective indicators of the quality of the interpolated signal, it is shown, that in each class of methods, the proposed modifications lead to a noticeable improvement in quality or convergence over the baseline methods. In particular, within the studied range of impairments, algorithms using factorization compete with the current best methods for interpolating missing sections of the audio signal.
Klíčová slova:
audio inpainting; audio interpolation; inverse problems; non-negative matrix factorization; optimization; proximal algorithms; restoration; sparsity; audio inpainting; interpolace audio signálů; inverzní úlohy; nezáporná faktorizace matic; optimalizace; proximální algoritmy; restaurace; řídkost
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: https://hdl.handle.net/11012/245589