Název:
Automatický přepis řeči letecké komunikace do textu
Překlad názvu:
Automatic Transcription of Air-Traffic Communication to Text
Autoři:
Balok, Petr ; Karafiát, Martin (oponent) ; Szőke, Igor (vedoucí práce) Typ dokumentu: Bakalářské práce
Rok:
2023
Jazyk:
cze
Nakladatel: Vysoké učení technické v Brně. Fakulta informačních technologií
Abstrakt: [cze][eng]
Tato práce řeší problematiku získání přepsaného textu z audio souborů obsahujících záznamy letecké komunikace a audio soubory obsahující řeč ve dvou jazycích. Zvolenou problematiku řeším pomocí strojového učení. Konkrétně nástroji vytvořenými v jazyce Python, NeMo a Whisper. Před fine-tuningem modelů jsem získal WER 78 % na datech letecké komunikace a 60 % na bilinguálním datasetu. Pomocí těchto technologií se mi podařilo zmenšit chybovost přepisů na 24 % v přepisech letecké komunikace. Na dvojjazyčném datasetu jsem dosáhl 19 % WER (Word Error Rate - četnost chybně přepsaných slov). Výsledky této práce umožňují automatický přepis nahrávek letecké komunikace s nízkým počtem chyb v přepisu. Modely trénované na dvojjazyčném datasetu umožňují přepis nahrávek obsahujících angličtinu i češtinu zároveň.
This thesis solves the problem of getting text transcription from audio files containing air-traffic communication and audio files containing speech in two languages. I solved this problem using machine learning, specifically by using toolkits written in Python called NeMo and Whisper. Before fine-tuning, I got a 78 % word error rate on an ATC dataset and a 60 % word error rate on a bilingual dataset. Using these technologies, I managed to lower the word error rate to 24 % in transcriptions of air-traffic communication. I also got a 19 % word error rate for bilingual speech. The results of this thesis allow automatic transcription of air-traffic communication with a low rate of errors in the transcript. Furthermore, models trained on bilingual dataset allow transcribing audio files containing both English and Czech speech in one file.
Klíčová slova:
automatický přepis řeči; letecká komunikace; NeMo; strojové učení; umělé neuronové sítě; Whisper; air-traffic communication; artificial neural networks; automatic speech recognition; machine learning; NeMo; Whisper
Instituce: Vysoké učení technické v Brně
(web)
Informace o dostupnosti dokumentu:
Plný text je dostupný v Digitální knihovně VUT. Původní záznam: http://hdl.handle.net/11012/212676