Název:
Integrace augmentace dat do Pytorch
Překlad názvu:
Data augmentation integration into Pytorch
Autoři:
Vašina, Ladislav ; Polok, Alexander (oponent) ; Szőke, Igor (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2024
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Tato práce představuje nástroj, který tvoří sjednocené, jednoduché a uživatelsky přívětivé rozhraní nad knihovnami pro augmentaci zvukových dat, jež je možné využít spolu s knihovnou PyTorch. Implementovaný nástroj nabízí možnost použití širokého spektra augmentací z různých knihoven a umožňuje je jednoduše aplikovat na datové sady. Podpory takto velkého spektra augmentací by bylo možné dosáhnout pouze za použití mnoha rozhraní jednotlivých knihoven. Nástroj je schopný od uživatele přijímat seznam augmentací s jejich parametry a sám rozhoduje, jakou z integrovaných knihoven pro dané augmentace použít. Vytvořený nástroj byl testován na úkolu ladění automatického rozpoznávače řeči Whisper. Hlavním přínosem této práce je implementace řešení velkého množství knihoven pro augmentaci zvukových dat, kde každá knihovna poskytuje jiný počet a různé druhy augmentací zvuku a zároveň má i jiné vlastnosti a rozhraní.
This thesis presents a tool that creates a unified, simple, and user-friendly interface on top of the audio augmentation libraries that can be used in conjunction with PyTorch library. The implemented tool offers the possibility to use a wide spectrum of augmentations from different libraries and offers easy application of those augmentations on the datasets. The support of the large range of augmentations could be only achieved by using multiple interfaces of the individual libraries. The tool can receive a list of augmentations from the user with its parameters and then it decides which of the integrated libraries it should use to apply that specific augmentation. The created tool was tested on the task of fine-tuning the automatic speech recognition system called Whisper. The main contribution of this work is that it provides a solution to a large number of libraries for the augmentation of audio data, where each library provides a different number and types of augmentations of audio, while also having different features and interfaces.
Klíčová slova:
augmentace zvukových dat; automatické rozpoznání řeči; impulsní odezva místnosti; integrace augmentačních nástrojů; OpenAI Whisper; PyTorch; audio data augmentation; augmentation tools integration; automatic speech recognition; OpenAI Whisper; PyTorch; room impulse response
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: https://hdl.handle.net/11012/247443