Original title:
Rozpoznávač řeči s omezeným slovníkem
Translated title:
Very limited Vocabulary Speech Recognizer
Authors:
Vystavěl, Kamil ; Míča, Ivan (referee) ; Sysel, Petr (advisor) Document type: Bachelor's theses
Year:
2010
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií Abstract:
[cze][eng]
Bakalářská práce se zabývá implementací metody rozpoznávání řeči s omezeným počtem rozpoznávaných slov v prostředí Matlab. Rozpoznávač je založen na metodě dynamického programování realizované algoritmem borcení časové osy (DTW) a je určen pro rozpoznávání izolovaných slov. Z řečového signálu jsou vyčíslovány příznaky pomocí metod krátkodobé analýzy signálu v časové a kmitočtové oblasti, dále pomocí metod na principu kepstrální analýzy a lineární prediktivní analýzy signálu. Příznaky vytvoří obraz slova vhodný pro kvantifikaci míry podobnosti s obrazem jiného slova. Algoritmus borcení časové osy eliminuje vliv kolísání tempa promluvy nelineární normalizací časové osy jednoho ze slov tak, aby se obrazy slov co nejvíce shodovaly. Míra podobnosti dvou slov je vyčíslena jako vzdálenost slov. Ve slovníku rozpoznávače jsou uloženy obrazy známých slov, obraz neznámého slova je porovnán s obrazy slov ve slovníku a jsou vyčísleny vzdálenosti každého známého slova s neznámým slovem. Neznámé slovo je určeno jako shodné s tím slovem ve slovníku, ke kterému má nejmenší vzdálenost. Úspěšnost klasifikace je závislá především na volbě příznaků.
This bachelor thesis deals with the implementation of voice diagnostic method with limited number of recognized words in Matlab environment. Recognizer is designed for recognition of isolated words and is based on the dynamic programming method. This method is realized by the dynamic time warping algorithm (DTW). Features of the speech signal are calculated by methods of short-term analysis in time and frequency domain and by methods that are based on cepstral analysis and linear predictive analysis. The representation of the word, which is generated from its features, is suitable for quantifying the degree of similarity with the representation of another word. In order to achieve the highest degree of similarity, the dynamic time warping algorithm eliminates influence of fluctuation of the speech rate by non-linear normalization time axis of one of the compared words. The degree of the similarity of the two compared words is enumerated as the words’ distance. The representations of known words are stored in a word-book. The unknown word is compared with all words in the word-book and recognizer calculates distances between every known word and the unknown word. The unknown word is defined as identical with the known word that has the shortest distance to the unknown word. The successfulness depends mainly on the choice of the features.
Keywords:
cepstral analysis; DTW; dynamic time warping; linear predictive analysis.; speech signal analysis; voice recognition; words’ distance; analýza řečového signálu; borcení časové osy; DTW; kepstrální analýza; lineární prediktivní analýza.; rozpoznávání řeči; vzdálenost slov
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/5881