Original title:
Odhad obličeje z řečového signálu
Translated title:
Learning the Face Behind a Voice
Authors:
Kyjonka, Mojmír ; Matějka, Pavel (referee) ; Plchot, Oldřich (advisor) Document type: Bachelor's theses
Year:
2021
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Tato práce se zaobírá problematikou rekonstrukce obličeje na základě hlasu. V rámci této práce je prozkoumán současný stav této problematiky a následně je natrénován model pro generování obličeje z krátké audionahrávky. Natrénovaný model vychází z práce "Reconstructing faces from voices", jenž je založen na architektuře GAN. V této práci byly použity datasety VGGFace, VoxCeleb. Pro účely bakalářské práce byl vytvořen malý audiovizuální dataset česky mluvících osob. Práce je implementovaná pomocí skriptovacího jazyka Python s využitím knihovny PyTorch.
This thesis deals with face reconstruction based on voice. The state of the art of this problem is investigated and model for such problem is trained. Model used in this thesis is based on the work "Reconstructing faces from voices" which architecture is based on Generative Adversarial Network (GAN). In this work, we used VGGFace and VoxCeleb datasets, and additionally, we created a small audiovisual dataset of Czech speakers. This work was implemented using the Python scripting language and PyTorch library.
Keywords:
Embedding; Face normalization; Face reconstruction; GAN; VGGFace; VoxCeleb; Embedding; GAN; Normalizace obličeje; Rekonstrukce obličeje; VGGFace; VoxCeleb
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/201115