Název:
Co nejlepší rozpoznávač řeči na vlastních datech
Překlad názvu:
The Best Possible Speech Recognizer on Your Own Data
Autoři:
Sýkora, Tomáš ; Veselý, Karel (oponent) ; Szőke, Igor (vedoucí práce) Typ dokumentu: Diplomové práce
Rok:
2020
Jazyk:
eng
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [eng][cze]
Denno-denne vzniká množstvo špičkových objavov v oblasti strojového učenia. Prispôsobením týchto sýstémov tak, aby čo najlepšie fungovali iba na obmedzenej podmnožine všeobecných dát, môžu byť dosiahnuté výrazné zlepšenia v prenosti. Prispôsobením automatického rozpoznávača reči na doménovo špecifické dáta je možné vytvoriť produkt dosahujúci omnoho lepšie výsledky ako rozpoznávač reči natrénovaný na všeobecných dátach. Táto práca prezentuje 17-percentné zlepšenie chybovosti prepísaných slov oproti automatickému rozpoznávaču reči ponúkaného službou Google Speech. Toto zlepšenie bolo dosiahnuté precíznou anotáciou a prípravou doménových dát a kombináciou špičkových techník a algoritmov v oblasti automatického rozpoznávania reči. Popísaný systém bol úspešne nasadený do výrobného prostredia transkripčnej spoločnosti Parrot, ktorej súčasťou som od jej začiatku. Nasadený systém výrazne zvýšil efektivitu zamestancov používajúcich výstup popísaného rozpoznávača.
Many state-of-the-art results in different machine learning areas are presented on day-to-day basis. By adjusting these systems to perform perfectly on a specific subset of all general data, huge improvements may be achieved in their resulting accuracy. Usage of domain adaptation in automatic speech recognition can bring us to production level models capable of transcribing difficult and noisy customer conversations way more accurately than the general models trained on all kinds of language and speech data. In this work I present 17% word error rate improvement in our speech recognition task over the general domain speech recognizer from Google. The improvement was achieved by both very precise annotation and preparation of domain data and by combining state-of-the-art techniques and algorithms. The described system was successfully integrated into a production environment of the Parrot transcription company, where I am a member of the initial team, which drastically increased performance of the human transcribers.
Klíčová slova:
automatic speech recognition; dataset; domain data; kaldi; speech data cleaning; automatické rozpoznávanie reči; dataset; doménové dáta; kaldi; čistenie rečových dát
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/211891