Název:
Topic Identification from Spoken TED-Talks
Překlad názvu:
Topic Identification from Spoken TED-Talks
Autoři:
Vašš, Adam ; Ondel, Lucas Antoine Francois (oponent) ; Kesiraju, Santosh (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2019
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [eng][cze]
Táto práca sa zaoberá problémom spracovania prirodzeného jazyka a následnej klasifikácie. Použité systémy boli modelované na TED-LIUM korpuse. Systém automatického spracovania jazyka bol modelovaný s použitím sady nástrojov Kaldi. Vo výsledku bol dosiahnutý WER s hodnotou 16.6%. Problém klasifikácie textu bol adresovaný s pomocou metód na lineárnu klasifikáciu, konkrétne Multinomial Naive Bayes a Linear Support Vector Machines, kde druhá technika dosiahla vyššiu presnosť klasifikácie.
This thesis deals with the problems of language recognition and topic classification, using TED-LIUM corpus to train both the ASR and classification models. The ASR system is built using the Kaldi toolkit, achieving the WER of 16.6%. The classification problem is addressed using linear classification methods, specifically Multinomial Naive Bayes and Linear Support Vector Machines, the latter method achieving higher topic classification accuracy.
Klíčová slova:
acoustic modeling; ASR; classification; Kaldi; language modeling; linear classification; machine learning; support vector machines; talks; TED; TED-LIUM; topic identification; transcription; akustický model; ASR; identifikácia tém; Kaldi; klasifikácia; lineárna klasifikácia; lingvistický model; strojové učenie; support vector machines; talks; TED; TED-LIUM; transkripcia
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/187233