Original title:
Topic Identification from Spoken TED-Talks
Translated title:
Topic Identification from Spoken TED-Talks
Authors:
Vašš, Adam ; Ondel, Lucas Antoine Francois (referee) ; Kesiraju, Santosh (advisor) Document type: Bachelor's theses
Year:
2019
Language:
eng Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[eng][cze]
Táto práca sa zaoberá problémom spracovania prirodzeného jazyka a následnej klasifikácie. Použité systémy boli modelované na TED-LIUM korpuse. Systém automatického spracovania jazyka bol modelovaný s použitím sady nástrojov Kaldi. Vo výsledku bol dosiahnutý WER s hodnotou 16.6%. Problém klasifikácie textu bol adresovaný s pomocou metód na lineárnu klasifikáciu, konkrétne Multinomial Naive Bayes a Linear Support Vector Machines, kde druhá technika dosiahla vyššiu presnosť klasifikácie.
This thesis deals with the problems of language recognition and topic classification, using TED-LIUM corpus to train both the ASR and classification models. The ASR system is built using the Kaldi toolkit, achieving the WER of 16.6%. The classification problem is addressed using linear classification methods, specifically Multinomial Naive Bayes and Linear Support Vector Machines, the latter method achieving higher topic classification accuracy.
Keywords:
akustický model; ASR; identifikácia tém; Kaldi; klasifikácia; lineárna klasifikácia; lingvistický model; strojové učenie; support vector machines; talks; TED; TED-LIUM; transkripcia; acoustic modeling; ASR; classification; Kaldi; language modeling; linear classification; machine learning; support vector machines; talks; TED; TED-LIUM; topic identification; transcription
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: http://hdl.handle.net/11012/187233