Národní úložiště šedé literatury Nalezeno 59 záznamů.  1 - 10dalšíkonec  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Framework for event modeling a prediction in football.
Geffert, Maroš ; Beneš, Karel (oponent) ; Szőke, Igor (vedoucí práce)
This thesis investigates current methods of predicting football events such as the number of goals in a match, the outcome of a match, or whether both teams will score. The models analyzed were neural network, RandomForest and XGBoost. Extensive historical data on matches and players were collected as part of the work. The main objectives were to determine whether detailed statistics significantly affect prediction, to evaluate the effectiveness of using betting odds as features, to investigate the impact of historical data on the quality of predictions, and to determine whether success can be achieved in the betting market with such models. The results showed that detailed statistics improve the accuracy of the predictions, but the use of odds as features generally degrades the predictions. The results regarding the use of historical data for predictions were inconclusive. RandomForest and neural network models achieved promising results with ROI of 32.38% and 29.04%, respectively.
Aligning pre-trained models for spoken language translation
Sedláček, Šimon ; Beneš, Karel (oponent) ; Kesiraju, Santosh (vedoucí práce)
In this work, we investigate a novel approach to end-to-end speech translation (ST) by leveraging pre-trained models for automatic speech recognition (ASR) and machine translation (MT) and connecting them with a small connector module (Q-Former, STE). The connector bridges the gap between the speech and text modalities, transforming the ASR encoder embeddings into the latent representation space of the MT encoder. During training, the foundation ASR and MT models are frozen, and only the connector parameters are tuned, optimizing for the ST objective. We train and evaluate our models on the How2 English to Portuguese ST dataset. In our experiments, aligned systems outperform our cascade ST baseline while utilizing the same foundation models. Additionally, while keeping the size of the connector module constant and small in comparison (10M parameters), increasing the size and capability of the ASR encoder and MT decoder universally improves translation results. We find that the connectors can also serve as domain adapters for the foundation models, significantly improving translation performance in the aligned ST setting, compared even to the base MT scenario. Lastly, we propose a pre-training procedure for the connector, with the potential for reducing the amount of ST data required for training similar aligned systems.
Large Language Models in Speech Recognition
Tomašovič, Martin ; Polok, Alexander (oponent) ; Beneš, Karel (vedoucí práce)
This thesis explores the conditions under which a Large Language Model (LLM) improves Automatic Speech Recognition (ASR) transcription. Specifically, the thesis focuses on n-best rescoring with masked and autoregressive language models. The n-best hypotheses are scored using LLM and then this score is interpolated with the scores from ASR. This approach is tested across different ASR settings and datasets. Results demonstrate that rescoring hypotheses from Wav2Vec 2.0 and Jasper ASR systems reduces the error rate. LLM fine-tuning proves to be very beneficial. Smaller fine-tuned models can surpass larger non-fine-tuned ones. The findings of this thesis broaden the knowledge of the conditions for LLM (autoregressive, masked) utilization in ASR rescoring. The thesis observes the influence of fine-tuning, normalization and separating scores from a CTC decoder on the decrease of word error rate.
Segmentation of logical units in text
Kostelník, Martin ; Kišš, Martin (oponent) ; Beneš, Karel (vedoucí práce)
The goal of this project is the topic segmentation of text into coherent units. It builds on the PERO-OCR software, aiming to improve the processing of Czech historical documents and information retrieval for librarians and scientists. This included the creation and annotation of a custom dataset comprised of 4044 pages from books, dictionaries, and periodicals. I propose an innovative approach treating segmentation as a line clustering problem. The method involves a two-stage process: initial detection of regions of interest containing text lines using the YOLOv8 model, followed by joining them using a graph neural network. This method achieves a V-measure of 77.93 %, 95.79 % and 90.23 % for books, dictionaries and periodicals, respectively.
Synchronizace textu a audia
Šikula, Vojtěch ; Beneš, Karel (oponent) ; Szőke, Igor (vedoucí práce)
Tato bakalářská práce se zabývá synchronizací textu a audia. Jsou zde prezentovány jednotlivé práce, které se zabývaly daným problémem. K vyhodnocení jsou použita data z MGB Challenge 2015. Zkoumaná technika využívá fonémového přepisu a jeho následné zarovnání s přepisem. Zarovnání bylo provedeno podle různých modelů. Nejlepších výsledků bylo dosaženo při průniku dvou zarovnání podle modelů z kvalitních nahrávek.
Porovnávání dvou audio vzorů jako Android aplikace
Zhantemirov, Sultan ; Beneš, Karel (oponent) ; Szőke, Igor (vedoucí práce)
Tato bakalářská práce je zaměřená na implementaci Android aplikace pro porovnávání audio vzorků pomocí speciálních technik. Cílem výsledného programu je jednoduchá demonstrace algoritmu porovnávání a jeho urychlení. První část této práce se zabývá teoretickou analýzou a návrhem porovnávání, zatímco další jsou věnovány implementaci, urychlení algoritmu a jeho testování v rámci hotového demonstračního programu. 
Chatbot postavený na umělých neuronových sítích
Čechák, Jiří ; Beneš, Karel (oponent) ; Szőke, Igor (vedoucí práce)
Bakalářská práce popisuje implementaci a způsob fungování generativního chatbotu. Chatbot byl implementován v jazyce Python pomocí umělých neuronových sítí a je založen na sequence-to-sequence principu. Výsledný chatbot obsahuje tři modely, které je možné každý natrénovat a poté použít k vedení konverzace ve vytvořeném GUI. Chatbot byl, po natrénování všech modelů, testován pomocí metriky BLEU. Také byl testován několika uživateli, kteří porovnali kvalitu generovaných odpovědí s kvalitou odpovědí již existujícího chatbotu Cleverbot. Pro lepší pochopení dané problematiky se zde nachází jednoduchý popis základních pojmů, jako je umělá inteligence, umělá neuronová síť, rozdíl mezi uzavřenou a otevřenou doménou, word embedding a základní popis chatbotů a jejich dělení, včetně jejich výhod, nevýhod a použití.
Chatbot Capable of Information Search
Ďurista, Michal ; Beneš, Karel (oponent) ; Černocký, Jan (vedoucí práce)
''Chatbot'' is a very popular term in today's artificial intelligence era. Chatbots can be seen in business solutions more a more nowadays. The main goal of this thesis is to create an algorithm that is capable of information retrieval and implement it into a chatbot. The information resides on a real customer's web pages. The thesis also provides an overview of current chatbot situation along with the Microsoft technologies used for the development. The technological background of these technologies, mostly natural language processing techniques, is covered too. The thesis also describes the implementation of the algorithm and the chatbot itself as well as the real industrial environment testing process.
Umělý básník
Bančák, Michal ; Szőke, Igor (oponent) ; Beneš, Karel (vedoucí práce)
Dokument predstavuje prácu na automatickom generovaní poézie, pomocou Long Short-Term Memory rekurentnej neurónovej siete. Cieľom práce je vytvoriť aplikáciu, ktorá imituje písanie básní. Jedná sa o jazykové modelovanie na úrovni znakov v slovenskom jazyku. Model neurónovej siete použitý v práci sa skladá z troch vrstiev LSTM so 400 skrytými jednotkami. K tejto práci bola taktiež vytvorená zbierka básní v slovenskom jazyku vo veľkosti 900k znakov. Výsledkom práce je generovanie textu, ktorý má prvky básne. Dosahovaná presnosť generovania je 41.85%.
Finite State Grammars and Language Models for Automatic Speech Recognition
Beneš, Karel ; Glembek, Ondřej (oponent) ; Hannemann, Mirko (vedoucí práce)
This thesis deals with the transformation of Context Free Grammars (CFG) into Weighted Finite State Transducers (WFST). A subset of CFG is chosen, that can be transformed exactly. Both the test of whether a CFG fulfills such condition and the algorithm for the following transformation are presented. A tool has been implemented, which performs both these tasks, also its input and output processing are reported. Using this tool, a speech recognition system for aircraft cockpit control has been built. Results are presented which show, that the system based on the transformed grammar outperforms the system based on general-purpose language model.

Národní úložiště šedé literatury : Nalezeno 59 záznamů.   1 - 10dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.