Název:
Segmentace mluvčích s využitím statistických metod klasifikace
Překlad názvu:
Speaker Segmentation using statistical methods of classification
Autoři:
Adamský, Aleš ; Přinosil, Jiří (oponent) ; Smékal, Zdeněk (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2011
Jazyk:
slo
Nakladatel: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstrakt: [slo][eng]
V práci sú podrobne vysvetlené a rozobraté pojmy reč a prozódia, ktoré predstavujú teoretické východiská pre segmentáciu hovoriacich. Rovnako je opísaný multimediálny anotačný nástroj Elan, použitý pre značkovanie databázy. Teoretická časť ďalej zdôrazňuje príznaky často používané pre spracovanie reči ako MFCC, PLP a LPC. Zaoberá sa najpopulárnejšími metódami segmentácie hovoriacich, z ktorých niektoré i popisuje. Praktická časť sa venuje implementácií metódy Bayesovho informačného kritéria do systému pre automatickú segmentáciu hovoriacich. Pre automatickú segmentáciu hovoriacich boli postupne použité viaceré príznaky. Výsledky testov boli vyhodnotené grafickou metódou ROC a jej kvantitatívnymi parametrami. Ako najvhodnejšie pre segmentáciu hovoriacich boli stanovené príznaky MFCC a HFCC.
The thesis discusses in detail some concepts of speech and prosody that can contribute to build a speech corpus for the speaker segmentation purpose. Moreover, the Elan multimedia annotator used for labeling is described. The theoretical part highlights some frequently used speech features such as MFCC, PLP and LPC and deals with currently most popular speech segmentation methods. Some classification algorithms are also mentioned. The practical part describes implementation of Bayesian information criterium algorithm in system for automatic speaker segmentation. For classification of speaker change point in speech, were used different speech features. The results of tests were evaluated by the graphic method of receiver operating characteristic (ROC) and his quantitative indices. As the best speech features for this system were provided MFCC and HFCC.
Klíčová slova:
Bayesian information criterion; Elan linguistic annotator; features; labeled database; speaker segmentation; the ROC graph
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/876