Národní úložiště šedé literatury Nalezeno 38 záznamů.  začátekpředchozí19 - 28další  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Automatický přepis řeči letecké komunikace do textu
Balok, Petr ; Karafiát, Martin (oponent) ; Szőke, Igor (vedoucí práce)
Tato práce řeší problematiku získání přepsaného textu z audio souborů obsahujících záznamy letecké komunikace a audio soubory obsahující řeč ve dvou jazycích. Zvolenou problematiku řeším pomocí strojového učení. Konkrétně nástroji vytvořenými v jazyce Python, NeMo a Whisper. Před fine-tuningem modelů jsem získal WER 78 % na datech letecké komunikace a 60 % na bilinguálním datasetu. Pomocí těchto technologií se mi podařilo zmenšit chybovost přepisů na 24 % v přepisech letecké komunikace. Na dvojjazyčném datasetu jsem dosáhl 19 % WER (Word Error Rate - četnost chybně přepsaných slov). Výsledky této práce umožňují automatický přepis nahrávek letecké komunikace s nízkým počtem chyb v přepisu. Modely trénované na dvojjazyčném datasetu umožňují přepis nahrávek obsahujících angličtinu i češtinu zároveň.
Analýza entit v psychoterapeutických sezeních
Polok, Alexander ; Karafiát, Martin (oponent) ; Matějka, Pavel (vedoucí práce)
Tato práce se zabývá analýzou psychoterapeutických sezení v rámci výzkumného projektu DeePsy. Jejím cílem je navrhnout a vytvořit sadu příznaků modelujících průběh sezení, jež mohou odhalit na první pohled nepatrné nuance. Zmíněné příznaky jsou automaticky extrahovány ze zdrojové nahrávky s využitím hlubokých neuronových sítí. Příznaky jsou zpracovány, porovnány napříč sezeními a graficky zobrazeny, čímž vzniká dokument plnící roli zpětné vazby o sezení pro terapeuta. Tato zpětná vazba může posloužit k profesnímu růstu a kvalitnější psychoterapii v budoucnu. Bylo dosaženo relativního zlepšení detekce řečové aktivity o 37,82 %. Byl zobecněn diarizační systém VBx ke konvergenci ke dvěma mluvčím s minimálním relativním zhoršením chybovosti o 0,66 %. Byl natrénován systém pro automatické rozpoznávání řeči, jehož chybovost je o 17,06 % relativně lepší než nejlepší dostupný hybridní model. Dále byly natrénovány systémy pro klasifikaci sentimentu, typu terapeutických intervencí a detekci překrývající se řeči.
End-to-End Speech Recognition for Low-Resource Languages
Sokolovskii, Vladislav ; Schwarz, Petr (oponent) ; Karafiát, Martin (vedoucí práce)
The automatic speech recognition area has started to adopt end-to-end neural network solutions for creating speech recognizers. However, the data hunger nature of these types of systems allows for the creation of recognizers only for high-resource languages, such as English, Chinese or Spanish. In low-resource scenarios, some solutions which alleviate the data scarcity problem have to be developed. One of the most effective techniques for this is fine-tuning a pre-trained model. The problem with the existing approaches of fine-tuning is that the token set of target and source languages does usually differ. That is why previous multi-lingual transfer learning approaches required the output layer to be changed, or mixed tokens from different languages in the output layer, or use universal token sets, or have separate output layers per language. This is undesirable because the sharing across languages in this case latent and not controllable in the output space when the language-specific graphemes are disjoint. Therefore this work proposes to map the tokens to the common set before the beginning of the pre-training. The existing solution was a transliteration of the source language to the target one, the novel approach is romanization where the token set of the target language is romanized to match the English alphabet. Subsequently, the diacritics from the romanized hypotheses can be restored using an additional restoration model. This has the advantage of increasing sharing in the output grapheme space.
Adaptace jazykového modelu na cílovou doménu využívající stahování veřejných dat
Gregušová, Sabína ; Švec, Ján (oponent) ; Karafiát, Martin (vedoucí práce)
Cieľom práce je implementovať systém pre automatickú adaptáciu jazykového modelu pre Phonexia ASR systém. Systém prijíma vstupný súbor, ktorý analyzuje a vyberie vhodné výrazy pre webové vyhľadávanie. Každé webové vyhľadávanie prináša množinu dokumentov, ktoré podstupujú čistenie a filtrovanie. Výsledný webový korpus sa zmieša s Phonexia modelom a vykoná sa evaluácia. Pre odhad optimálnych parametrov boli vykonané viaceré experimenty pre hindštinu, češtinu a mandarínsku čínštinu. Výsledky experimentov boli pozitívne a implementovaný systém bol schopný znížiť perplexitu a Word Error Rate vo väčšine experimentov.
Vliv akustiky prostředí na úspěšnost rozpoznávače řeči
Paliesek, Jakub ; Karafiát, Martin (oponent) ; Szőke, Igor (vedoucí práce)
Táto diplomová práca sa venuje vplyvom akustiky miestnosti na úspešnosť rozpoznávania reči. Na vyhodnotenie experimentov bol použitý rečový korpus LibriSpeech a databáza impulzných odoziev a šumu ReverbDB. Skúmané rozpoznávače reči boli založené na Kaldi recepte Mini LibriSpeech. Najskôr bolo zmerané, ako sa rozpoznávač dokáže naučiť rozpoznávať vo vybraných prostediach použitím rovnakých akustických podmienok pri trénovaní aj testovaní. Následne bolo experimentované s architektúrou systému s cieľom dosiahnuť čo najlepšiu robustnosť voči rôznym novým podmienkam za použitia metód pre adaptáciu na prostredie pomocou r-vektorov a i-vektorov. Bol ukázaný prínos nedávno predstavenej techniky r-vektorov aj pri použití augmentácie dát pomocou reálnych impulných odoziev.
Low-Dimensional Matrix Factorization in End-To-End Speech Recognition Systems
Gajdár, Matúš ; Grézl, František (oponent) ; Karafiát, Martin (vedoucí práce)
The project covers automatic speech recognition with neural network training using low-dimensional matrix factorization. We are describing time delay neural networks with factorization (TDNN-F) and without it (TDNN) in Pytorch language. We are comparing the implementation between Pytorch and Kaldi toolkit, where we achieve similar results during experiments with various network architectures. The last chapter describes the impact of a low-dimensional matrix factorization on End-to-End speech recognition systems and also a modification of the system with TDNN(-F) networks. Using specific network settings, we were able to achieve better results with systems using factorization. Additionally, we reduced the complexity of training by decreasing network parameters with the use of TDNN(-F) networks.
Rozpoznávač řeči řízený gramatikami
Škorvaga, Vojtěch ; Karafiát, Martin (oponent) ; Schwarz, Petr (vedoucí práce)
Tato práce popisuje vytvoření systému pro sestavení rozpoznávací sítě pro rozpoznávač mluvené řeči na základě Speech Recognition Grammar Specification (SRGS) gramatiky definované W3C konsorciem. Rozpoznávač byl spolu s tímto modulem integrován do softwarové ústředny FreeSWitch pomocí kombinace síťových protokolů MRCPv2/SIP/RTP a testován. Práce byla řešená ve spolupráci s firmou Phonexia s.r.o.
Nové techniky v oblasti trénování neuronových sítí - Connectionist temporal classification
Gajdár, Matúš ; Švec, Ján (oponent) ; Karafiát, Martin (vedoucí práce)
Táto bakalárska práca sa zaoberá problematikou neurónových sietí a ich využití v oblasti rozpoznávania reči. Na začiatok si priblížime teóriu rozpoznávania reči, následne na to nadväzuje problematika neurónových sietí spojená s vysvetlením metódy connectionist temporal classification. V ďalšej časti sú popísané nástroje vďaka ktorým sme mohli uskutočniť trénovanie neurónových sietí, spojené s popisom jednotlivých experimentov, ktoré sme spraviliaby sme zistili vplyv metódy connectionist temporal classification na presnosť predpovedania správnych foném. V záverečnej časti sa nachádza zhrnutie práce a celkové zhodnotenie experimentov.
Rychlý a přesný detektor klíčových slov
Lenčéš, Marián ; Karafiát, Martin (oponent) ; Schwarz, Petr (vedoucí práce)
Tato práce se zabývá rychlou a přesnou detekcí klíčových slov z audio nahrávek. Cílem práce bylo prostudovat možnosti detekce slov a vytvořit několik typů jazykových modelů. Tyto modely následně mezi sebou porovnat. Zaměřujeme se zde na detekci klíčových slov z anglicky namluvených audio nahrávek.
Zobrazení a analýza aktivit neuronové sítě ve skrytých vrstvách
Fábry, Marko ; Grézl, František (oponent) ; Karafiát, Martin (vedoucí práce)
Cílem této práce je vytvořit systém schopný zobrazení hodnot aktivačních funkcí neuronů nacházejících se v skrytých vrstvách neuronových sítí použitých na rozpoznávání řeči. Dále byly na tomto systému provedeny experimenty porovnávající vizualizační metody, vizualizace neuronových sítí s různými architekturami a s různými druhy vstupních dat. Vizualizační systém implementovaný v rámci této práce je založen na předchozí práci pana Khe Chai Sim a rozšířen o nové způsoby normalizace vstupních dat. Pro přípravu trénovacích dat neuronových sítí byl použit framework Kaldi. Pro samotné trénování neuronových sítí byl použit nový framework CNTK. Jádro práce - samotný vizualizační systém byl implementován v skriptovacím jazyce Python.

Národní úložiště šedé literatury : Nalezeno 38 záznamů.   začátekpředchozí19 - 28další  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.