National Repository of Grey Literature 4 records found  Search took 0.01 seconds. 
Aligning pre-trained models for spoken language translation
Sedláček, Šimon ; Beneš, Karel (referee) ; Kesiraju, Santosh (advisor)
Tato práce zkoumá nový end-to-end přístup k překladu mluveného jazyka (ST) využívající předtrénovaných modelů pro přepis řeči (ASR) a strojový překlad (MT), propojené malým spojovacím modulem (Q-Former, STE). Ten má za úkol překlenout mezeru mezi modalitami řeči a textu mapováním embedding reprezentací ASR enkodéru do latentního prostoru reprezentací MT modelu. Během trénování jsou zvolené ASR a MT model zmrazeny, laděny jsou pouze parametry spojovacího modulu. Trénování a evaluace jsou prováděny na datasetu How2, obsahujícím ST data z Angličtiny do Portugalštiny. V našich experimentech zjišťujeme, že většina sladěných systémů překonává referenční kaskádový ST systém, přičemž využívají stejné základní modely. Navíc, při zachování konstantní a ve srovnání malé (10M parametrů) velikosti spojovacího modulu, větší a silnější ASR a MT modely univerzálně zlepšují výsledky překladu. Zjišťujeme, že spojovací moduly mohou také sloužit jako doménové adaptéry pro zvolené základní systémy, kdy významně zlepšují výsledky překladu ve sladěném ST prostředí, a to i oproti holému MT výkonu daného MT modelu. Nakonec navrhujeme proceduru pro předtrénování spojovacího modulu s potenciálem snížit množství ST dat potřebných pro trénink obdobných sladěných systémů.
Search in speech recordings based on semantic vectors
Boboš, Dominik ; Karafiát, Martin (referee) ; Schwarz, Petr (advisor)
V současné době přetížené informacemi jsou efektivní metody vyhledávání informací velice žádané. Tato práce shrnuje metody pro získávání vektorových reprezentací pro text a zvuk, známé také jako sémantické vektory. Podívali jsme se hlouběji na multimodální mo\-de\-ly, jako jsou SpeechT5 a SeamlessM4T, které transformují tyto typy vstupu do jednoho sdíleného vektorového prostoru. Na základě těchto modelů jsme vybudovali systém, který nám umožňuje vyhledávat v datech bez ohledu na modalitu. Abychom mohli vyhodnotit navrhované řešení, kromě standardního rozpoznávání klíčových slov, také pro úlohy sémantického vyhledávání, manuálně jsme označili datovou sadu pro zachycení podobných sémantických významů klíčových slov nebo frází. Nakonec jsme provedli několik experimentů, kde jsme prozkoumali možnosti modelů omezením pozorovaného kontextu během dotrénovaní neuronové sítě nebo zapojením systémů převodu textu na řeč (TTS) ke zlepšení celkového výkonu.
Vision Transformery pre vstavané platformy
Nemčeková, Barbora
This work focuses on investigation of Vision Transformers for the task of image classification, their optimization and deployment on selected embedded devices. Until now, convolutional neural networks have been used for image classification on the selected embedded devices, but with the revolution in natural language processing, there has been an interest in investigating transformers for computer vision tasks as well. The work experiments with different kinds of model quantization methods, such as int8 quantization, int16x8 quantization, dynamic quantization, and SmoothQuant method. The results show that not all transformers for computer vision can be quantized with sufficient accuracy, even when using the specialized SmoothQuant method. It also turned out that the quantized transformer model cannot be accelerated on the NPUs of selected devices. From the investigated factors, such as accuracy after model optimization, latency and memory usage on the embedded device, it emerged that for the task of image classification and model deployment on embedded devices, convolutional neural networks still outperform transformer models.
High Level Analysis of the Psychotherapy Sessions
Polok, Alexander ; Karafiát, Martin (referee) ; Matějka, Pavel (advisor)
This work focuses on analyzing psychotherapy sessions within the DeePsy research project. This work aims to design and develop features that model the session dynamics, which can reveal seemingly subtle nuances. The mentioned features are automatically extracted from the source recording using neural networks. They are further processed, compared across sessions, and displayed graphically, creating a document that acts as a feedback document about the session for the therapist. Furthermore, this assistive tool can help therapists to professionally grow and to provide better psychotherapy in the future. A relative improvement in voice activity detection of 37.82% was achieved. The VBx diarization system was generalized to converge to two speakers with a minimum relative error rate degradation of 0.66%. An automatic speech recognition system has been trained with a 17.06% relative improvement over the best available hybrid model. Models for sentiment classification, type of therapeutic interventions, and overlapping speech detection were also trained.

Interested in being notified about new results for this query?
Subscribe to the RSS feed.