Název:
Odhad obličeje z řečového signálu
Překlad názvu:
Learning the Face Behind a Voice
Autoři:
Kyjonka, Mojmír ; Matějka, Pavel (oponent) ; Plchot, Oldřich (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2021
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Tato práce se zaobírá problematikou rekonstrukce obličeje na základě hlasu. V rámci této práce je prozkoumán současný stav této problematiky a následně je natrénován model pro generování obličeje z krátké audionahrávky. Natrénovaný model vychází z práce "Reconstructing faces from voices", jenž je založen na architektuře GAN. V této práci byly použity datasety VGGFace, VoxCeleb. Pro účely bakalářské práce byl vytvořen malý audiovizuální dataset česky mluvících osob. Práce je implementovaná pomocí skriptovacího jazyka Python s využitím knihovny PyTorch.
This thesis deals with face reconstruction based on voice. The state of the art of this problem is investigated and model for such problem is trained. Model used in this thesis is based on the work "Reconstructing faces from voices" which architecture is based on Generative Adversarial Network (GAN). In this work, we used VGGFace and VoxCeleb datasets, and additionally, we created a small audiovisual dataset of Czech speakers. This work was implemented using the Python scripting language and PyTorch library.
Klíčová slova:
Embedding; GAN; Normalizace obličeje; Rekonstrukce obličeje; VGGFace; VoxCeleb; Embedding; Face normalization; Face reconstruction; GAN; VGGFace; VoxCeleb
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/201115