Original title:
Sonifikace videa pomocí technik umělé inteligence
Translated title:
Artificial Intelligence for Video Sonification
Authors:
Dobrocký, Filip ; Burget, Radim (referee) ; Říha, Kamil (advisor) Document type: Master’s theses
Year:
2023
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií Abstract:
[cze][eng]
Táto práca sa zaoberá sonifikáciou videa – prevodom obrazu na zvuk. Jej cieľom je využitie moderných techník počítačového videnia založených na umelej inteligencii pre vytvorenie systému schopného algoritmickej tvorby zvuku použiteľného v umeleckom kontexte. Sústredí sa na oblasti sound artu, algoritmickej kompozície a generatívnej hudby. Súčasťou práce je implementácia modulárneho sonifikačného systému v jazyku Python využívajúceho moderný detektor objektov YOLOv7 spolu s algoritmom pre sledovanie viacerých objektov z knižnice Norfair. Princíp je založený na systematickom prideľovaní zvukových objektov sledovaným objektom vo videu. Zvuk je tvorený prostredníctvom platformy SuperCollider a jej API pre Python s názvom Supriya, využívajúc rozličné typy zvukovej syntézy spolu s automatizovane vytvorenou databankou zvukov.
This thesis deals with the topic of video sonification – the transformation of image into sound. It aims to use state-of-the-art techniques of computer vision based on artificial intelligence to create a system capable of algorithmic sound creation applicable in the art context. The focus is put on the fields of sound art, algorithmic composition and generative music. The thesis includes an implementation of a modular sonification system which utilizes the modern object detector YOLOv7 along with a multiple object tracking algorithm (implemented in the library Norfair), built using the programming language Python. The fundementals of the system lie in systematic assignment of sound objects to objects tracked in the video. The sound creation relies on the SuperCollider platform using the Python API Supriya, incorporating various methods of sound synthesis along with a programmatically created sound database.
Keywords:
algorithmic composition; artificial intelligence; computer vision; interactive music; multiple object tracking; object detection; sonification; sound art; SuperCollider; YOLO; algoritmická kompozícia; detekcia objektov; interaktívna hudba; počítačové videnie; sledovanie objektov; sonifikácia; sound art; SuperCollider; umelá inteligencia; YOLO
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/210227