Original title:
Automatický přepis řeči s podporou code switching
Translated title:
Automatic Transcription of Speech Supporting Code Switching
Authors:
Bílek, Štěpán ; Karafiát, Martin (referee) ; Szőke, Igor (advisor) Document type: Bachelor's theses
Year:
2024
Language:
cze Publisher:
Vysoké učení technické v Brně. Fakulta informačních technologií Abstract:
[cze][eng]
Tato práce se zabývá problematikou automatického rozpoznávání řeči. Zaměřuje se na rozpoznávání audia obsahující vícejazyčné promluvy, tzv. code-switching. Problém nedostatku vícejazyčných dat pro trénování je řešen kombinováním nahrávek v angličtině a němčině dohromady. Pro co největší přiblížení ke skutečné dvojjazyčné řeči je část datasetů tvořena spojováním nahrávek podobných mluvčích. Na vytvořených datech je trénován a testován model Whisper. Ten v původní neadaptované verzi dosahuje chybovosti až 70 %. Nejlepší modely trénované na kombinovaných datasetech dosahují chybovosti jen lehce přes 7 %. Výsledky této práce ukazují způsoby jak modely trénovat, aby dosahovaly co nejlepších výsledků.
This thesis addresses the issue of automatic speech recognition, focusing on the recognition of audio containing multilingual speech, known as code-switching. The problem of a lack of multilingual data for training is addressed by combining recordings in English and German. To achieve the closest approximation to real bilingual speech, a portion of the datasets is created by merging recordings of similar speakers. The Whisper model is trained and tested on the created data. In its original unadapted version, the model achieves an error rate of up to 70 %. The best models trained on combined datasets achieve error rates slightly above 7 %. The results of this study demonstrate methods for training models to achieve the best possible performance.
Keywords:
Automatic speech recognition; code switching; fine-tuning; machine learning; multilingual speech.; Whisper; Automatické rozpoznávání řeči; code switching; fine-tuning; strojové učení; vícejazyčná řeč; Whisper
Institution: Brno University of Technology
(web)
Document availability information: Fulltext is available in the Brno University of Technology Digital Library. Original record: https://hdl.handle.net/11012/247497