Název:
Nástroj pro automatickou segmentaci nahrávek řeči
Překlad názvu:
Automatic speech recordings segmentation tool
Autoři:
Santa, Roman ; Zvončák, Vojtěch (oponent) ; Kováč, Daniel (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2021
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstrakt: [eng][cze]
Nástroj pre automatickú segmentáciu spracováva nahrávky reči a extrahuje hovorené slovo z nahrávok. Je dôležité, aby pokročilá analýza pracovala iba s rečovými časťami z nahrávky. Nástroj na segmentáciu má ulahčiť spracovanie nahrávok pre analýzu rozdielov medzi hláskami pacientov s parkinsonovou chorobou a tými zdravými. Cieľ tejto práce je navrhnúť a otestovať detektory reči s Google WebRTC detektorom a vybrať ten najvhodnejší detektor reči s minimálnym počtom chýb. Ďalej, vytvoriť nástroj na segmentáciu nahrávok a otestovať rozpoznávanie reči pomocou dynamic time warping. Bola použitá databáza poskytnutá laboratóriom pre analýzu mozgových ochorení. Obsahuje české a maďarské nahrávky s rovnakým počtom mužských a ženských pacientov a aj rovnakým počtom zdravých pacientov a pacientov s parkinsonovou chorobou. Najlepšie výsledky v testoch dosiahol detektor na základe energie reči. Nebol zistený žiaden rozdiel v presnosti detektoru pri spracovaní mužských a ženských nahrávok alebo nahrávok zdravých či chorých pacientov. Nahrávky s nízkym odstupom signálu od šumu boli náročnejšie na spracovanie s frekvenciou chýb od 12%. Na základe výsledkov, bol navrhnutý nový detektor pre spracovanie úplnej nahrávky. Na záver bol testovaný algoritmus pre rozpoznávanie podobnosti reči na základe melovských kepstrálnych koeficientov.
Automatic Segmentation tool processes recordings in order to extract voiced parts. It is important for further speech analysis to work only with extracted speech and not noise. For analysis of the difference between syllables of patients with parkinson disease and heatlhy ones, this segmentation tool should help with processing recordings. Goal of this thesis is to implement and test voice detectors with Google WebRTC detector and pick the best speech detector with minimal error rate. Also, develop a segmentation tool for given recordings and test voice recognition with dymanic time warping. Database from the Brain Diseases Analysis Laboratory was used. It contains czech and hungarian recordings with equal number of male and female as well as heathy and diseased patients. Energy detector performed as the best detetor in the tests. There was no significant difference in error rates between male and female or healthy and diseased patients. Recordings with lower Signal-to-Noise ratio were harder to process with an error rate starting at 12\%. Based on the results, new detector for the segmentation tool was proposed to process examined recordings. Finally, dynamic time warping algorithm was tested with mel frequency cepstral coefficients to recognize similarities between speakers.
Klíčová slova:
Dynamic Time Warping; Python; Segmentation; Speech Recognition; Voice Activity Detection; detektor rečovej aktivity; dynamické borcení časové osy; python; Rozpoznávanie reči; segmentácia
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/197879