Original title:
Segmentace mluvčích s využitím statistických metod klasifikace
Translated title:
Speaker Segmentation using statistical methods of classification
Authors:
Adamský, Aleš ; Přinosil, Jiří (referee) ; Smékal, Zdeněk (advisor) Document type: Master’s theses
Year:
2011
Language:
slo Publisher:
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií Abstract:
[slo][eng]
V práci sú podrobne vysvetlené a rozobraté pojmy reč a prozódia, ktoré predstavujú teoretické východiská pre segmentáciu hovoriacich. Rovnako je opísaný multimediálny anotačný nástroj Elan, použitý pre značkovanie databázy. Teoretická časť ďalej zdôrazňuje príznaky často používané pre spracovanie reči ako MFCC, PLP a LPC. Zaoberá sa najpopulárnejšími metódami segmentácie hovoriacich, z ktorých niektoré i popisuje. Praktická časť sa venuje implementácií metódy Bayesovho informačného kritéria do systému pre automatickú segmentáciu hovoriacich. Pre automatickú segmentáciu hovoriacich boli postupne použité viaceré príznaky. Výsledky testov boli vyhodnotené grafickou metódou ROC a jej kvantitatívnymi parametrami. Ako najvhodnejšie pre segmentáciu hovoriacich boli stanovené príznaky MFCC a HFCC.
The thesis discusses in detail some concepts of speech and prosody that can contribute to build a speech corpus for the speaker segmentation purpose. Moreover, the Elan multimedia annotator used for labeling is described. The theoretical part highlights some frequently used speech features such as MFCC, PLP and LPC and deals with currently most popular speech segmentation methods. Some classification algorithms are also mentioned. The practical part describes implementation of Bayesian information criterium algorithm in system for automatic speaker segmentation. For classification of speaker change point in speech, were used different speech features. The results of tests were evaluated by the graphic method of receiver operating characteristic (ROC) and his quantitative indices. As the best speech features for this system were provided MFCC and HFCC.
Keywords:
Bayesian information criterion; Elan linguistic annotator; features; labeled database; speaker segmentation; the ROC graph
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/876