National Repository of Grey Literature 8 records found  Search took 0.00 seconds. 
Voice Activity Detection
Břenek, Roman ; Grézl, František (referee) ; Matějka, Pavel (advisor)
This thesis describes techniques for voice activity detection in audio recordings. It is necessary to  correctly classify all non-speech segments and recognize speech with noisy background.  The whole process of voice activity detection (VAD) is described in this thesis, i.e. digitizing audio  signal, feature extraction, training of the system, post-processing and final evaluation. There are  three different systems compared within the thesis . The first one is based on phoneme recognition using neural network, the other two are variations of Gaussian Mixture Models (GMM). Each system was tested on three data sets - Tactical Speaker Identification Speech Corpus (TSID), Ham Radio (HR) and Rich Transcription Evaluation (RT05-RT07). The best results of each system are compared with the results of the third side.
Voice activity detection
Mitáček, Štěpán ; Pfeifer, Václav (referee) ; Míča, Ivan (advisor)
This work dreals with the comparison of different detection methods of speach from various audio recordings. In comparing it assesses not only the high of adjusted threshold during deciding, but also the size of individual segments to which the audiotape spreads. Detection of individual recordings can be various in different speakers and also if the interference noise occurs in the recording or not. Finaly it should be compared, which one of the tested methods is the most precise. .
Personal Voice Activity Detection
Sedláček, Šimon ; Landini, Federico Nicolás (referee) ; Švec, Ján (advisor)
Cílem této práce je implementovat, otestovat a vyhodnotit řečníkem podmíněnou metodu pro detekci hlasu ( Voice Activity Detection , VAD) nazvanou Personal VAD. Pro detekci využívá tato metoda LSTM neuronových sítí a jejím účelem je vytvoření systému schopného spolehlivě detekovat řečové signály cílového řečníka při zachování vlastností typického VAD systému co se velikosti modelu, odezvy a nízkých nároků na zdroje týče. Systém je trénován pro klasifikaci řečových rámců do tří tříd: neřeč, řeč necílového a řeč cílového řečníka. Za tímto účelem využívá metoda speaker embedding vektory pro reprezentaci cílového řečníka jako součást vstupních příznaků. Některé z náročnějších variant systému využívají skórování rámců systémem pro verifikaci řečníka, což vede ke zvýšení spolehlivosti klasifikace. Vedle základní metody skórování představené v originálním článku byly navrženy dvě modifikace, jež základní metodu překonaly a zlepšily spolehlivost výsledného systému i v akusticky náročných prostředích.
Acoustic Detection of Speaker Position Using Microphone Array
Horázný, František ; Mošner, Ladislav (referee) ; Szőke, Igor (advisor)
This thesis describes the problem of determining the approximate position of a sound source in a coordinate system needed using the microphone field. It covers all possible variables influencing the detection of the sound source and explains the basic methods which can be used to determine the origin of the sound. The solution proposed in this thesis is to use synchronized static recordings and further modifications for running the program in real-time on the provided ARM/SHARC system, which has limited performance. This thesis contains also tests of the individual components and their parameters. The effect of changing these parameters on the behavior of the system is also shown in this thesis. Additionally, the developed application is used to perform the experiments demonstrating the shift of results during computation without any limitations and when running on the sound system. It also shows experiments with the resulting application, how the results change when calculating without performance limitation and when running on a sound card. Finally, this thesis gives several recommendations and assumptions on how to improve the results when using the program and how to eliminate several system limitations in unfavorable conditions.
Personal Voice Activity Detection
Sedláček, Šimon ; Landini, Federico Nicolás (referee) ; Švec, Ján (advisor)
Cílem této práce je implementovat, otestovat a vyhodnotit řečníkem podmíněnou metodu pro detekci hlasu ( Voice Activity Detection , VAD) nazvanou Personal VAD. Pro detekci využívá tato metoda LSTM neuronových sítí a jejím účelem je vytvoření systému schopného spolehlivě detekovat řečové signály cílového řečníka při zachování vlastností typického VAD systému co se velikosti modelu, odezvy a nízkých nároků na zdroje týče. Systém je trénován pro klasifikaci řečových rámců do tří tříd: neřeč, řeč necílového a řeč cílového řečníka. Za tímto účelem využívá metoda speaker embedding vektory pro reprezentaci cílového řečníka jako součást vstupních příznaků. Některé z náročnějších variant systému využívají skórování rámců systémem pro verifikaci řečníka, což vede ke zvýšení spolehlivosti klasifikace. Vedle základní metody skórování představené v originálním článku byly navrženy dvě modifikace, jež základní metodu překonaly a zlepšily spolehlivost výsledného systému i v akusticky náročných prostředích.
Acoustic Detection of Speaker Position Using Microphone Array
Horázný, František ; Mošner, Ladislav (referee) ; Szőke, Igor (advisor)
This thesis describes the problem of determining the approximate position of a sound source in a coordinate system needed using the microphone field. It covers all possible variables influencing the detection of the sound source and explains the basic methods which can be used to determine the origin of the sound. The solution proposed in this thesis is to use synchronized static recordings and further modifications for running the program in real-time on the provided ARM/SHARC system, which has limited performance. This thesis contains also tests of the individual components and their parameters. The effect of changing these parameters on the behavior of the system is also shown in this thesis. Additionally, the developed application is used to perform the experiments demonstrating the shift of results during computation without any limitations and when running on the sound system. It also shows experiments with the resulting application, how the results change when calculating without performance limitation and when running on a sound card. Finally, this thesis gives several recommendations and assumptions on how to improve the results when using the program and how to eliminate several system limitations in unfavorable conditions.
Voice Activity Detection
Břenek, Roman ; Grézl, František (referee) ; Matějka, Pavel (advisor)
This thesis describes techniques for voice activity detection in audio recordings. It is necessary to  correctly classify all non-speech segments and recognize speech with noisy background.  The whole process of voice activity detection (VAD) is described in this thesis, i.e. digitizing audio  signal, feature extraction, training of the system, post-processing and final evaluation. There are  three different systems compared within the thesis . The first one is based on phoneme recognition using neural network, the other two are variations of Gaussian Mixture Models (GMM). Each system was tested on three data sets - Tactical Speaker Identification Speech Corpus (TSID), Ham Radio (HR) and Rich Transcription Evaluation (RT05-RT07). The best results of each system are compared with the results of the third side.
Voice activity detection
Mitáček, Štěpán ; Pfeifer, Václav (referee) ; Míča, Ivan (advisor)
This work dreals with the comparison of different detection methods of speach from various audio recordings. In comparing it assesses not only the high of adjusted threshold during deciding, but also the size of individual segments to which the audiotape spreads. Detection of individual recordings can be various in different speakers and also if the interference noise occurs in the recording or not. Finaly it should be compared, which one of the tested methods is the most precise. .

Interested in being notified about new results for this query?
Subscribe to the RSS feed.