Název:
Detekce přednahraných úseků v řeči
Překlad názvu:
Detection of Pre-Recorded Messages in Speech
Autoři:
Boboš, Dominik ; Matějka, Pavel (oponent) ; Černocký, Jan (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2021
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [eng][cze]
Rozpoznání před-nahraných zpráv v řeči (tzv. plechové huby) je užitečné pro jakékoliv následující dolování informací v řečových datech. Tato práce shrnuje teorii hledání podobných promluv v řeči a efektivní přístupy k porovnání dvou sekvencí. Ke zkoumání identifikace opakujících se informací v audiu je nutné mít velké množství dat s přesně se opakujícími úseky. Takovou datovou sadu jsme vygenerovali smícháním předem nahraných zpráv s telefonními hovory se změnami rychlosti, hlasitosti a opakování. Náš systém řeší scénáře "známých zpráv a "neznámých zpráv pomocí shlukování nebo detekce v blocích. Porovnali jsme techniky dynamického borcení času (DTW), přibližné shody řetězců a rekurentní kvantifikační analýzy, a nakonec jsme všechny uvedené techniky zkombinovali a získali tak přesný a efektivně pracující systém.
Recognition of pre-recorded messages in speech is useful for any follow-up speech data mining. This thesis summarises the theory of searching similar utterances in speech and efficient approaches to compare two sequences. To investigate identification of redundant information in audio, it is necessary to have a large amount of data with the exact phrases repeated multiple times. We generated a dataset by mixing pre-recorded messages into phone calls with variations in speed, volume and repetitions. Our system tackles known messages and unknown messages'' scenarios by using approaches like clustering or detection in chunks. Dynamic time warping, approximate string matching and recurrent quantification analysis are compared, and finally, all mentioned techniques are combined to obtain a precise and efficient system.
Klíčová slova:
bottleneck features; detection of re-occurring sequences in audio; fuzzy string matching; Mel-frequency cepstral coefficients features; phoneme posteriors; recurrence quantification analysis; segmental dynamic time warping; analýza rekurentní kvantifikace; bottleneck příznaky; detekce opakujících se sekvencí v nahrávkách; fonémové pravděpodobnosti; přibližná shoda řetězců; příznaky Mel-frekvenčních kepstrálních koeficientů; segmentální dynamické borcení času
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/198907