Národní úložiště šedé literatury Nalezeno 40 záznamů.  1 - 10dalšíkonec  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Automatický přepis řeči s podporou code switching
Bílek, Štěpán ; Karafiát, Martin (oponent) ; Szőke, Igor (vedoucí práce)
Tato práce se zabývá problematikou automatického rozpoznávání řeči. Zaměřuje se na rozpoznávání audia obsahující vícejazyčné promluvy, tzv. code-switching. Problém nedostatku vícejazyčných dat pro trénování je řešen kombinováním nahrávek v angličtině a němčině dohromady. Pro co největší přiblížení ke skutečné dvojjazyčné řeči je část datasetů tvořena spojováním nahrávek podobných mluvčích. Na vytvořených datech je trénován a testován model Whisper. Ten v původní neadaptované verzi dosahuje chybovosti až 70 %. Nejlepší modely trénované na kombinovaných datasetech dosahují chybovosti jen lehce přes 7 %. Výsledky této práce ukazují způsoby jak modely trénovat, aby dosahovaly co nejlepších výsledků.
Search in speech recordings based on semantic vectors
Boboš, Dominik ; Karafiát, Martin (oponent) ; Schwarz, Petr (vedoucí práce)
In the current era of information overload, efficient methods for information retrieval are crucial. This thesis summarises methods for obtaining vector representations for text and audio, also known as semantic vectors. We took a deeper look at joint-representation models such as SpeechT5 and SeamlessM4T, which transform these various forms of input into one shared vector space. Based on these models, we built a system which allows us to search in data regardless of the modality. In order to evaluate the proposed solution on semantic search tasks, apart from standard keyword spotting tasks, we labelled a dataset to capture similar semantic meanings of the keywords or phrases. Finally, we conducted several experiments, where we explored the possibilities of the models used by limiting the context seen during finetuning or involving text-to-speech (TTS) systems to improve overall performance.
Kdy kdo mluví?
Tomášek, Pavel ; Karafiát, Martin (oponent) ; Matějka, Pavel (vedoucí práce)
Práce se věnuje implementaci diarizace mluvčího. Popisuje jednotlivé komponenty diarizačního systému, který umí zodpovědět otázku "kdy kdo mluví". Mezi součásti takového systému patří postupně extrakce příznaků vstupních dat, detekce řeči/ticha, segmentace mluvčích, jejich následné shlukování a nakonec i techniky zaměřené na zlepšení finální segmentace. Práce pochopitelně uvádí i dosažené výsledky implementovaného systému na testovací sadě nahrávek včetně popisu způsobu hodnocení. Testovací nahrávky pochází z NIST RT evaluací z let 2005 - 2007 a nejnižší dosažená chybovost na této sadě je 18,52% DER. K porovnání výsledků systému na testovací sadě souborů je zde uvedena i úspěšnost Marijna Huijbregtse z Nizozemí, který v roce 2009 pracoval se stejnými nahrávkami a dosáhl chybovosti 12,91% DER.
Adaptace rozpoznávače řeči na datech bez přepisu
Švec, Ján ; Karafiát, Martin (oponent) ; Schwarz, Petr (vedoucí práce)
Cílem práce je vytvořit a otestovat techniky pro adaptaci rozpoznávače řeči na audionahrávkach bez slovního přepisu. Nejprve připravíme data pro trenovaní rozpoznavače řeči a natrénujeme počáteční systém. Tímto rozpoznavačem přepišeme neznáma data a zaměříme se na experimentování s výběrem kvalitních adaptačních dat na základě míry kvality přepisu. Systém na nově vytvořené sadě přetrénujeme a vyhodnotíme úspešnost. Dále experimentujeme s množstvím adaptačních dat.
End-to-End Speech Recognition for Low-Resource Languages
Sokolovskii, Vladislav ; Schwarz, Petr (oponent) ; Karafiát, Martin (vedoucí práce)
The automatic speech recognition area has started to adopt end-to-end neural network solutions for creating speech recognizers. However, the data hunger nature of these types of systems allows for the creation of recognizers only for high-resource languages, such as English, Chinese or Spanish. In low-resource scenarios, some solutions which alleviate the data scarcity problem have to be developed. One of the most effective techniques for this is fine-tuning a pre-trained model. The problem with the existing approaches of fine-tuning is that the token set of target and source languages does usually differ. That is why previous multi-lingual transfer learning approaches required the output layer to be changed, or mixed tokens from different languages in the output layer, or use universal token sets, or have separate output layers per language. This is undesirable because the sharing across languages in this case latent and not controllable in the output space when the language-specific graphemes are disjoint. Therefore this work proposes to map the tokens to the common set before the beginning of the pre-training. The existing solution was a transliteration of the source language to the target one, the novel approach is romanization where the token set of the target language is romanized to match the English alphabet. Subsequently, the diacritics from the romanized hypotheses can be restored using an additional restoration model. This has the advantage of increasing sharing in the output grapheme space.
Rychlý a přesný detektor klíčových slov
Lenčéš, Marián ; Karafiát, Martin (oponent) ; Schwarz, Petr (vedoucí práce)
Tato práce se zabývá rychlou a přesnou detekcí klíčových slov z audio nahrávek. Cílem práce bylo prostudovat možnosti detekce slov a vytvořit několik typů jazykových modelů. Tyto modely následně mezi sebou porovnat. Zaměřujeme se zde na detekci klíčových slov z anglicky namluvených audio nahrávek.
Rozpoznávání řeči pro vybrané jazyky
Schmitt, Jan ; Karafiát, Martin (oponent) ; Janda, Miloš (vedoucí práce)
Tato práce se zabývá rozpoznáváním spojité řeči pro trojici jazyků bulharštinu, chorvatštinu a švédštinu. Zpráva popisuje základy zpracování a rozpoznávání řeči, tvorbu akustických modelů pomocí skrytých Markovových modelů a směsi gaussovských rozložení a použití těchto technik pro rozpoznávání řeči v toolkitu Kaldi. Další součástí práce je postup přípravy dat pro toolkity pro rozpoznávání řeči HTK a Kaldi na základě dat z databáze GlobalPhone. V závěru jsou vytvořené modely otestovány pomocí testovacích dat a porovnány výsledky z jednotlivých modelů.
Automatické jazzové aranžmá
Chadim, Petr ; Karafiát, Martin (oponent) ; Fapšo, Michal (vedoucí práce)
Práce pojednává o aranžování melodie, která je doplněna jazzovými akordy. Zabývá se vytvořením dalších harmonických hlasů pomocí metody blokové harmonizace. Rozdělení na cílové a přechodové noty je provedeno pomocí techniky programování s omezujícími podmínkami (CSP). Přechodové noty jsou reharmonizovány dominantním septakordem nebo paralelním akordem. Pomocí CSP je také vytvořen basový part. Pro řešení CSP je použita knihovna Gecode. Harmonické hlasy jsou aranžovány čtyřhlasou úzkou harmonií. Výsledek aplikace slouží jako pomůcka pro hudebního aranžéra.
Nové techniky v oblasti trénování neuronových sítí - Connectionist temporal classification
Gajdár, Matúš ; Švec, Ján (oponent) ; Karafiát, Martin (vedoucí práce)
Táto bakalárska práca sa zaoberá problematikou neurónových sietí a ich využití v oblasti rozpoznávania reči. Na začiatok si priblížime teóriu rozpoznávania reči, následne na to nadväzuje problematika neurónových sietí spojená s vysvetlením metódy connectionist temporal classification. V ďalšej časti sú popísané nástroje vďaka ktorým sme mohli uskutočniť trénovanie neurónových sietí, spojené s popisom jednotlivých experimentov, ktoré sme spraviliaby sme zistili vplyv metódy connectionist temporal classification na presnosť predpovedania správnych foném. V záverečnej časti sa nachádza zhrnutie práce a celkové zhodnotenie experimentov.
Sada JavaAppletů pro demonstraci zpracování řeči
Kudr, Michal ; Karafiát, Martin (oponent) ; Černocký, Jan (vedoucí práce)
Cílem práce je seznámit se s metodami a technikami využívanými při zpracování řeči. Pomocí získaných znalostí navrhuji tři JavaApplety demonstrující vybrané metody.  V této práci můžeme nalézt teoretický rozbor vybraných problémů.

Národní úložiště šedé literatury : Nalezeno 40 záznamů.   1 - 10dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.