Národní úložiště šedé literatury Nalezeno 33 záznamů.  1 - 10dalšíkonec  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Automatický přepis řeči s podporou code switching
Bílek, Štěpán ; Karafiát, Martin (oponent) ; Szőke, Igor (vedoucí práce)
Tato práce se zabývá problematikou automatického rozpoznávání řeči. Zaměřuje se na rozpoznávání audia obsahující vícejazyčné promluvy, tzv. code-switching. Problém nedostatku vícejazyčných dat pro trénování je řešen kombinováním nahrávek v angličtině a němčině dohromady. Pro co největší přiblížení ke skutečné dvojjazyčné řeči je část datasetů tvořena spojováním nahrávek podobných mluvčích. Na vytvořených datech je trénován a testován model Whisper. Ten v původní neadaptované verzi dosahuje chybovosti až 70 %. Nejlepší modely trénované na kombinovaných datasetech dosahují chybovosti jen lehce přes 7 %. Výsledky této práce ukazují způsoby jak modely trénovat, aby dosahovaly co nejlepších výsledků.
Aligning pre-trained models for spoken language translation
Sedláček, Šimon ; Beneš, Karel (oponent) ; Kesiraju, Santosh (vedoucí práce)
In this work, we investigate a novel approach to end-to-end speech translation (ST) by leveraging pre-trained models for automatic speech recognition (ASR) and machine translation (MT) and connecting them with a small connector module (Q-Former, STE). The connector bridges the gap between the speech and text modalities, transforming the ASR encoder embeddings into the latent representation space of the MT encoder. During training, the foundation ASR and MT models are frozen, and only the connector parameters are tuned, optimizing for the ST objective. We train and evaluate our models on the How2 English to Portuguese ST dataset. In our experiments, aligned systems outperform our cascade ST baseline while utilizing the same foundation models. Additionally, while keeping the size of the connector module constant and small in comparison (10M parameters), increasing the size and capability of the ASR encoder and MT decoder universally improves translation results. We find that the connectors can also serve as domain adapters for the foundation models, significantly improving translation performance in the aligned ST setting, compared even to the base MT scenario. Lastly, we propose a pre-training procedure for the connector, with the potential for reducing the amount of ST data required for training similar aligned systems.
Large Language Models in Speech Recognition
Tomašovič, Martin ; Polok, Alexander (oponent) ; Beneš, Karel (vedoucí práce)
This thesis explores the conditions under which a Large Language Model (LLM) improves Automatic Speech Recognition (ASR) transcription. Specifically, the thesis focuses on n-best rescoring with masked and autoregressive language models. The n-best hypotheses are scored using LLM and then this score is interpolated with the scores from ASR. This approach is tested across different ASR settings and datasets. Results demonstrate that rescoring hypotheses from Wav2Vec 2.0 and Jasper ASR systems reduces the error rate. LLM fine-tuning proves to be very beneficial. Smaller fine-tuned models can surpass larger non-fine-tuned ones. The findings of this thesis broaden the knowledge of the conditions for LLM (autoregressive, masked) utilization in ASR rescoring. The thesis observes the influence of fine-tuning, normalization and separating scores from a CTC decoder on the decrease of word error rate.
Integrace augmentace dat do Pytorch
Vašina, Ladislav ; Polok, Alexander (oponent) ; Szőke, Igor (vedoucí práce)
Tato práce představuje nástroj, který tvoří sjednocené, jednoduché a uživatelsky přívětivé rozhraní nad knihovnami pro augmentaci zvukových dat, jež je možné využít spolu s knihovnou PyTorch. Implementovaný nástroj nabízí možnost použití širokého spektra augmentací z různých knihoven a umožňuje je jednoduše aplikovat na datové sady. Podpory takto velkého spektra augmentací by bylo možné dosáhnout pouze za použití mnoha rozhraní jednotlivých knihoven. Nástroj je schopný od uživatele přijímat seznam augmentací s jejich parametry a sám rozhoduje, jakou z integrovaných knihoven pro dané augmentace použít. Vytvořený nástroj byl testován na úkolu ladění automatického rozpoznávače řeči Whisper. Hlavním přínosem této práce je implementace řešení velkého množství knihoven pro augmentaci zvukových dat, kde každá knihovna poskytuje jiný počet a různé druhy augmentací zvuku a zároveň má i jiné vlastnosti a rozhraní.
Automatický přepis řeči letecké komunikace do textu
Nevařilová, Veronika ; Veselý, Karel (oponent) ; Szőke, Igor (vedoucí práce)
Tato práce se zabývá adaptací Whisperu, modelu automatického rozpoznávání řeči vyvinutého společností OpenAI, na českých a anglických záznamech letecké komunikace. Poskytuje základní vhled do problematiky rozpoznávání řeči, neuronových sítí a modelů stavěných na transformer architektuře. Popsány jsou také sběr a anotace dat a nakonec průběh a porovnání učení na dvou různých formách přepisu – plném, kdy se model učí přepisovat nahrávky slovo od slova, a zkráceném, který je snadnější pro rychlé vyhledávání informací v textu a přirozenější pro řídící letového provozu.
Semi-Supervised Speech-to-Text Recognition with Text-to-Speech Critic
Baskar, Murali Karthick ; Manohar, Vimal (oponent) ; Trmal, Jan (oponent) ; Burget, Lukáš (vedoucí práce)
Sequence-to-sequence automatic speech recognition (ASR) models require large quantities of training data to attain good performance. For this reason, unsupervised and semi-supervised training in seq2seq models have recently witnessed a surge in interest. This work builds upon recent results showing notable improvements in semi-supervised training using cycle-consistency and related techniques. Such techniques derive training procedures and losses able to leverage unpaired speech and/or text data by combining ASR with text-to-speech (TTS) models. This thesis first proposes a new semi-supervised modelling framework combining an end-to-end differentiable ASR->TTS loss with TTS->ASR loss. The method is able to leverage unpaired speech and text data to outperform recently proposed related techniques in terms of word error rate (WER). We provide extensive results analysing the impact of data quantity as well as the contribution of speech and text modalities in recovering errors and show consistent gains across WSJ and LibriSpeech corpora. The thesis also discusses the limitations of the ASR<->TTS model in out-of-domain data conditions. We propose an enhanced ASR<->TTS (EAT) model incorporating two main features: 1) the ASR->TTS pipeline is equipped with a language model reward to penalize the ASR hypotheses before forwarding them to TTS; and 2) speech regularizer trained in unsupervised fashion is introduced in TTS->ASR to correct the synthesized speech before sending it to the ASR model. Training strategies and the effectiveness of the EAT model are explored and compared with augmentation approaches. The results show that EAT reduces the performance gap between supervised and semi-supervised training by absolute WER improvement of 2.6% and 2.7% on LibriSpeech and BABEL respectively.
Integrace hlasových technologií na mobilní platformy
Černičko, Sergij ; Černocký, Jan (oponent) ; Schwarz, Petr (vedoucí práce)
Cílem práce je seznámit se s metodami a technikami využívanými při zpracování řeči. Popsat současný stav výzkumu a vývoje řečových technologií. Navrhnout a implementovat serverový rozpoznávač řeči, který využívá BSAPI. Integrovat klienta, který bude využívat server pro rozpoznání řeči, do mobilních slovníků společnosti Lingea.
Srovnání úspěšnosti Siri, Cortany a Google
Procingerová, Lucie ; Černocký, Jan (oponent) ; Szőke, Igor (vedoucí práce)
Cílem této práce je porovnat úspěšnost překladu mluveného slova do textu s využitím několika služeb. Primárně se jedná o aplikace od společností Apple Inc., Microsoft Corporation a Google Inc., avšak je zde zahrnuto také několik dalších aplikací, dostupných převážně on-line. Tento dokument obsahuje popis zadaného problému, rozbor postupu provádění přepisu u jednotlivých služeb. Následně jsou rozebrány výsledky testu a porovnány s referenčními výstupy. Na závěr je uvedena diskuze těchto pokusů.
Finite State Grammars and Language Models for Automatic Speech Recognition
Beneš, Karel ; Glembek, Ondřej (oponent) ; Hannemann, Mirko (vedoucí práce)
This thesis deals with the transformation of Context Free Grammars (CFG) into Weighted Finite State Transducers (WFST). A subset of CFG is chosen, that can be transformed exactly. Both the test of whether a CFG fulfills such condition and the algorithm for the following transformation are presented. A tool has been implemented, which performs both these tasks, also its input and output processing are reported. Using this tool, a speech recognition system for aircraft cockpit control has been built. Results are presented which show, that the system based on the transformed grammar outperforms the system based on general-purpose language model.
Zvyšování účinnosti strojového rozpoznávání řeči
Zelinka, Petr ; Tučková,, Jana (oponent) ; Nouza,, Jan (oponent) ; Sigmund, Milan (vedoucí práce)
V práci jsou identifikovány příčiny nedostatečné spolehlivosti současných systémů pro automatické rozpoznávání řeči při jejich nasazení v náročných podmínkách. U jednotlivých rušivých vlivů je popsán jejich dopad na úspěšnost rozpoznávání a je podán výčet známých postupů pro identifikaci těchto vlivů analýzou rozpoznávaného signálu. Je též uveden přehled obvyklých metod používaných k omezení dopadu rušivých vlivů na funkci rozpoznávače řeči. Vlastní přínos tkví v navržení nových postupů pro vytváření akustických modelů zašuměné řeči a modelů nestacionárního šumu, díky kterým je možné dosáhnout vysoké úspěšnosti rozpoznávání v náročných akustických podmínkách. Účinnost navržených opatření byla otestována na rozpoznávači izolovaných slov s využitím nahrávky reálného akustického pozadí operačního sálu pořízené na Uniklinikum Marburg v Německu při několikahodinové neurochirurgické operaci. Tato práce jako první přináší popis dopadu změn v hlasovém úsilí mluvčích na spolehlivost rozpoznávání řeči v celém rozsahu, tj. od šepotu až po křik. Je navržena koncepce rozpoznávače řeči, který je imunní vůči změnám v hlasovém úsilí mluvčích. Pro účely zkoumání změn v hlasovém úsilí byla v rámci řešení práce sestavena nová řečová databáze BUT-VE1.

Národní úložiště šedé literatury : Nalezeno 33 záznamů.   1 - 10dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.