Automatic Adding of Punctuation into Speech Transcript
Ščavnický, Tomáš ; Veselý, Karel (referee) ; Szőke, Igor (advisor)
This thesis deals with the problem of punctuation reconstruction in the output of automatic speech recognition systems. Constrains given on the solutions were applicability on general spoken English language and reasonable accuracy of the punctuation prediction system. Natural language tends to have in some cases non-deterministic nature and usually consists of a large number of grammatic rules. Therefore, a machine learning approach was chosen to solve this problem for its ability to recognize complicated patterns in data. A number of experiments with recurrent neural networks were executed to find the best network architecture for punctuation prediction. Resulting models created during these experiments reach accuracy comparable if not better than the works currently held as state-of-the-art solutions for punctuation reconstruction.
Comparison of Annotation Tools
Prexta, Dávid ; Otrusina, Lubomír (referee) ; Dytrych, Jaroslav (advisor)
This work deals with the comparison of annotation tools when working with various data sets, and obtaining the results of comparisons useful for improving the knowledge base of the annotators. The thesis analyzes the existing solutions and their drawbacks, from which the proposals of the new solution are deduced. The other sections deals with the design, implementation and testing of the resulting tool, which is evaluated at the conclusion, and possible future extensions are suggested.
Plot Analysis from Book Summaries and User Reviews
Rúček, Peter ; Dočekal, Martin (referee) ; Smrž, Pavel (advisor)
The aim of this work is to create a system for analysis and classification of plot keywords from summarized storylines and user reviews in English. The chosen problem is solved using a transformer-based machine learning technique. The created solution also implements data downloading and a dataset of user reviews and information about books was created, exceeding 23 million reviews and 900 thousand information about books. The system can predict what plot keywords the data contains. 
Multilingual Open-Domain Question Answering
Slávka, Michal ; Dočekal, Martin (referee) ; Fajčík, Martin (advisor)
Táto práca sa zaoberá automatickým viacjazyčným zodpovedaním na otázky v otvorenej doméne. V tejto práci sú navrhnuté prístupy k tejto málo prebádanej doméne. Konkrétne skúma, či: (i) použitie prekladu z angličtiny je dostačujúce, (ii) multilinguálne systémy vedia využiť preklad otázky do iných jazykov (iii) alebo je výhodnejšie nepoužívať žiaden preklad. Porovnávam použitie anglického systému založeného na modeli T5, ktorý využíva strojový preklad s natívne viacjazyčnými systémami založenými na viacjazyčnom modeli MT5. Anglický systém so strojovým prekladom mierne prekonáva svoje jednojazyčné náprotivky vo viacerých úlohách. Napriek tomu, že tento model bol natrénovaný na väčšom množstve dát zlepšenie nie je dostatočne signifikantné. To ukazuje, že použitie natívne viacjazyčných systémov je sľubným prístupom pre budúci výskum. Tiež prezentujem metódu získavania dokumentov v rôznych jazykoch pomocou algoritmu BM25 a porovnávam ju s anglickým retrievalom. Používanie viacjazyčných dôkazov sa javí ako prospešné a zlepšuje výkonnosť systému systémov.
Non-Supervised Sentiment Analysis
Karabelly, Jozef ; Landini, Federico Nicolás (referee) ; Fajčík, Martin (advisor)
Cieľom tejto práce je odprezentovať prehľad aktuálneho výskumu v oblasti analýzy sentimentu bez priameho učiteľa a identifikovať potenciálne smery výskumu. Okrem toho práca predstavuje novú účelovú funkciu na predtrénovanie, ktorá nevyžaduje priamy supervíziu. Rozšírenie modelu predstavenou účelovou funkciou, pridanie vrstvy neurónovej siete a následné samotné natrénovanie ukazujú sľubné výsledky. Rozšírený model naznačil schopnosť zakódovať abstraktné reprezentácie celkového sentimentu, emócií a sarkazmu. Pre účely použitia predstavenej účelovej funkcie bol nazbieraný vlastný dataset. Na základe experimentov vykonaných s rozšíreným modelom sú odprezentované možné smery výskumu a budúce vylepšenia.
Semantic Similarity of Texts
Hajdin, Martin ; Otrusina, Lubomír (referee) ; Smrž, Pavel (advisor)
This paper deals with the determination of the semantic similarity of texts focusing on categorization of web documents in this case bookmarks. The part of the process is a theoretical overview of methods for system implementation. It describes the design and implementation of the various methods used in the system, too. This paper also deals with the evaluation of various methods where the chosen method are tested according to specified criteria.
Automatic Keyword Extraction in Czech
Gallovič, Ľubomír ; Otrusina, Lubomír (referee) ; Smrž, Pavel (advisor)
This thesis describes design, implementation and testing of application for automatic keyterm extraction from technical texts in czech language. Multiple algorithms for candidate selection, as well as various statistical and linguistic methods for score calculation were implemented. All of these algorithms were analyzed and compared, and best performing ones were chosen to be included in the final version of the program. 
Trie Structures for Large Text Data Processing
Rajčok, Andrej ; Otrusina, Lubomír (referee) ; Smrž, Pavel (advisor)
This study analyzes natural language processing with emphasis on morphological analysis of inflective languages and systems for named entity recognition. It analyzes effective pattern matching in dictionary by using succint structures and then analyzes practical implementation of succint structures. It describes design and implementation of named entity recognition system and morphological analyzer and compares and test their speed and effectiveness.
Named Entity Recognition Exploiting Sub Word Information
Dobrovodský, Patrik ; Egorova, Ekaterina (referee) ; Kesiraju, Santosh (advisor)
Cieľom tejto bakalárskej práce je zhotovenie systému rozpoznania názvoslovnej entity zhotovenej na základe modelu, ktorý bol nedávno považovaný za jeden z najmodernejších a popri tom skúma aký vplyv majú podslovné informácie na nahradenie slov mimo slovnej zásoby. Vytvorený systém vedľa anglického jazyka podporuje aj dva Indo-Európske jazyky konkrétne nemčinu a maďarčinu. Bakalárska práca predstavuje systém využívajúci hlboké učenie pre rozpoznávanie názvoslovných entít, ktorý používa predtrénované a samotrénované slovné vnorenia, zriedkavé vnorenia a charakterové vnorenia vyzdvihnuté konvolučnou neurónovou sieťou. Tieto vnorenia najprv spracujeme sekvenčnou (dlhodobá-krátkodobá pamäť) a potom charakteristickou (podmienené náhodné pole) metódou. Cieľom je dosiahnuť podobnú F1-mieru akú má inšpiračný model s možnosťou porovnania s ostatnými modernými systémami. Výsledkom našej práce je systém, ktorý na anglickej testovacej sade CoNLL 2003 dosiahol 90.98%-né F1-mieru používajúci predtrénované vnorenia a približuje sa k inšpiračnej práci s hodnotou 91.26%. V prípade ďalších jazykov používajúcich samotrénované slovné vnorenia dosiahol systém na testovacej sade WikiAnn pre nemčinu 89.34%-nú a pre maďarčinu 93.04%-nú F1-mieru.
