Název:
Audiovizuální rozpoznávání osoby
Překlad názvu:
Audiovisual person recognition
Autoři:
Bahounek, Ondřej ; Mošner, Ladislav (oponent) ; Plchot, Oldřich (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2024
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Tahle práce se zabývá audiovizuální verifikací osoby ve videu nebo ze snímku obličeje a hlasové nahrávky. Modely využívají fúze hlasových a obličejových embeddingů. Modely přidělují váhy oběma modalitám, podle nichž kladou větší pozornost na jednu z nich. Výsledky modelů se vyznačují dobrou odolností proti poškození jedné z modalit.
This work focuses on audiovisual verification of a person in a video or from a facial image and a voice recording. The models use a fusion of voice and face embeddings. The models assign weights to both modalities, allowing them to give more attention to one or the other. The results from these models demonstrate good resistance to the degradation of one of the modalities.
Klíčová slova:
audiovizuální verifikace osoby; embeddingy; fúze embeddingů; fúze modalit; Inception Resnet; MHFA; rozpoznání tváře; rozpoznání řečníka; WavLM; audivisual person verification; embedding fusion; embeddings; face recognition; Inception Resnet; MHFA; multi-modal fusion; speaker recognition; WavLM
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: https://hdl.handle.net/11012/247445