Název:
Forced alignment pomocí neuronových sítí
Překlad názvu:
Forced Alignment via Neural Networks
Autoři:
Beňovič, Marek ; Kofroň, Jan (vedoucí práce) ; Hnětynka, Petr (oponent) Typ dokumentu: Diplomové práce
Rok:
2020
Jazyk:
eng
Abstrakt: [eng][cze] Watching videos with subtitles in the original language is one of the most effective ways of learning a foreign language. Highlighting words at the moment they are pronounced helps to synchronize visual and auditory perception and increases learning efficiency. The method for aligning orthographic transcriptions to audio recordings is known as forced alignment. This work implements a tool for aligning transcript of YouTube videos with the speech in their audio recording, providing a web user interface with video player presenting the results. It integrates two state-of-the-art forced aligners based on Kaldi, first using standard HMM approach, second based on neural networks and compares their accuracy. Integrated aligners also provide a phone level alignment, which can be used for training statistical models in further speech recognition research. Work describes implementation and architectural concepts the tool is based on, which can be used in various software projects. 1Sledování videí s titulky v původním jazyce je jedním z nejúčinnějších způsobů výuky cizího jazyka. Zvýrazňování slov v okamžiku jejich vyslovení pomáhá synchronizovat vizuální a sluchové vnímání a zvyšuje efektivitu učení. Metoda pro zarovnávání or- tografických přepisů do zvukových záznamů je známá jako forced alignment. Tato práce implementuje nástroj pro zarovnávání přepisu YouTube videí s řečí v jejich zvukovém záz- namu a poskytuje webové uživatelské rozhraní s videopřehrávačem prezentujícím výsledky. Integruje dva nejmodernější nástroje pro zarovnávání přepisů založené na Kaldi, první využívající standardní HMM, druhý založen na neuronových sítích a porovnává jejich přesnost. Integrované zarovnávače také poskytují zarovnání na úrovni foném, které lze použít pro trénování statistických modelů ve výzkumu rozpoznávání řeči. Práce popisuje implementační a architektonické koncepty, na kterých je nástroj založen, které lze použít v různých softwarových projektech. 1
Klíčová slova:
forced alignment; framework pro webové aplikace; kaldi; neuronové sítě; rozpoznávání řeči; typescript; forced alignment; kaldi; neural networks; speech recognition; typescript; web application framework