National Repository of Grey Literature 29 records found  1 - 10nextend  jump to record: Search took 0.00 seconds. 
Generating Code from Textual Description of Functionality
Šamánek, Jan ; Fajčík, Martin (referee) ; Smrž, Pavel (advisor)
S pokračujícím nástupem strojového učení a stále větších modelů neuronových sítí, roste i potřeba GPU akcelerovaných zdrojů a algoritmů pro podporu těchto modelů. Vzhledem k tomu, že velké jazykové modely jsou již dnes využívány jako asistenti při programování v moderních programovacích jazycích, mohli by s tímto problémem pomoci. Pokud se tyto modely dokáží naučit i méně známá paradigmata, jako je CUDA, mohly by pomoci s vývojem a udržování těchto systémů. Tato práce zkoumá schopnosti moderních jazykových modelů pro učení se CUDA jako programovacího paradigmatu a také vytvoření nové trenovací sady, určené pro tyto účely.
Automated Truth Discovery
Kočí, Jan ; Ondřej, Karel (referee) ; Fajčík, Martin (advisor)
Cílem práce je (i) porozumět jaké vlastnosti textu jsou využívány content-based metodami při klasifikaci fake news a (ii) vyhodnotit kvality těchto metod na určování spolehlivosti článků a zdrojů. Práce implementuje dva klasifikační modely. První model (baseline), je založen na TF-IDF a Multinomial Naive Bayes klasifikátoru. Druhý model používá architekturu BERT transformeru. K interpretaci výsledků těchto modelů jsou v práci implementovány metody interpretability. Metoda interpretability pro BERT model je založena na Integrovaných gradientech. K trénování obou klasifikátorů je v práci použita datová sada NELA-GT-2021, která je předzpracována vyfiltrováním klíčových slov. V práci je také představena nová datová sada nazvaná FNI dataset. Tato sada obsahuje 46 manuálně vybraných článků a je použita k analýze klasifikátorů. FNI dataset umožňuje analyzovat klasifikátory na článcích z různých oblastí (například covid, fotbal, věda, politika, etc.). Výsledky analýzy odhalily několik nedostatků vytvořených klasifikátorů. Baseline model nebyl schopen správně klasifikovat nedůvěryhodné články na téma fotbal (recall 0\% na FNI datasetu), důvěryhodné vědecké články (recall 0\% na FNI datasetu), etc. Oba klasifikátory byly úspěšnější v identifikování nedůvěryhodných článků. BERT model dosáhl recall 91\% pro třídu unreliable a pouze 78\% pro třídu reliable na FNI datasetu. Metody interpretability dosahovaly také lepších výsledků na třídě unreliable kde se jim dařilo identifikovat šokující titulky používané ve fake news. Klasifikátory jsou také použity k určení důvěryhodnosti zdrojů. Jejich výsledky jsou srovnány s referenčními hodnotami získanými ze state-of-the-art metody, která posuzuje věrohodnost zdrojů na základě vzájemných citací. Jedním z výstupů práce je také challenge datová sada, obsahující články z NELA datasetu, které klasifikátory nedokázaly správně klasifikovat. Tato datová sada může být použita pro budoucí výzkum v tomto oboru.
Cross Lingual News Article Classification and Automatic Topic Discovery Using Multilingual Language Models
Dufková, Aneta ; Fajčík, Martin (referee) ; Kesiraju, Santosh (advisor)
Cílem této diplomové práce je provést mezijazykovou klasifikaci a automatickou detekci témat novinových článků s využitím předtrénovaných multijazykových modelů. Jelikož pro tento úkol nebyla k dispozici žádná vhodná datová sada, prvním přínosem této práce je vůbec takovou sadu vytvořit. Dalším krokem práce je porovnat multijazykové modely LaBSE a LASER2 v úloze klasifikace. K tomu je využita řada experiment zaměřených na trénování na omezeném počtu článků a samozřejmě testování na jazycích, které nebyly použity při tréninku. Poté je provedena automatická detekce témat, takže článek může být reprezentován nejen kategoriemi, ale také odpovídajícími slovy. Na závěr jsou výsledky popsaného procesu vizualizovány v podobě webové aplikace.
Designing a Multilingual Fact-Checking Dataset from Existing Question-Answering Data
Kamenický, Daniel ; Aparovich, Maksim (referee) ; Fajčík, Martin (advisor)
Tato práce se zabývá nedostatkem vícejazyčných datových sad pro kontrolu faktů, které by obsahovaly důkazy podporující nebo vyvracející fakt. Proto se tato práce zabývá převodem datového souboru pro kontrolu faktů z již existujícího datového souboru otázek a odpovědí. V této práci jsou studovány dva přístupy ke konverzi datové sady. Prvním přístupem je vytvoření datové sady založené na jednojazyčném předem natrénovaném seq-2-seq modelu T5. Model je trénován na anglickém datovém souboru. Vstupy a výstupy jsou překládány do požadovaných jazyků. Druhým přístupem je využití vícejazyčného modelu mT5, který přebírá vstup a generuje výstup v požadovaném jazyce. Pro vícejazyčný model je zapotřebí přeložit trénovací datové sady. Jako hlavní problém této práce se ukázal překlad, který v málo zdrojovém jazyce dosáhl kolem 30 % úspěšnosti. Experimenty ukázaly lepší výsledky v tvrzeních generovaných z jednojazyčného modelu s využitím strojového překladu. Na druhou stranu, tvrzení generované z vícejazyčného modelu dosáhly úspěšnosti 73 % oproti tvrzením z jednojazyčného modelu s dosaženou úspěšností 88 %. Modely byly vyhodnoceny modelem ověřování faktů založeném na TF-IDF. Dosažená přesnost modelu na obou datových sadách se blíží 0,5. Z toho lze usoudit, že výsledné datové sady mohou být náročné pro modely ověřování faktů.
Brno Communication Agent
Křištof, Jiří ; Fajčík, Martin (referee) ; Smrž, Pavel (advisor)
The aim of this thesis is the implementation of a communication agent, which provides information about Brno. The communication agent uses three - tier architecture . For the question answering , machine learning and neural network techniques are used . User tests determined the success rate 84 %. 58 % of the primary users were satisfied with the system. Main benefit of the work is facilitating the retrieving of information about Brno for its residents and visitors .
Multilingual Open-Domain Question Answering
Slávka, Michal ; Dočekal, Martin (referee) ; Fajčík, Martin (advisor)
Táto práca sa zaoberá automatickým viacjazyčným zodpovedaním na otázky v otvorenej doméne. V tejto práci sú navrhnuté prístupy k tejto málo prebádanej doméne. Konkrétne skúma, či: (i) použitie prekladu z angličtiny je dostačujúce, (ii) multilinguálne systémy vedia využiť preklad otázky do iných jazykov (iii) alebo je výhodnejšie nepoužívať žiaden preklad. Porovnávam použitie anglického systému založeného na modeli T5, ktorý využíva strojový preklad s natívne viacjazyčnými systémami založenými na viacjazyčnom modeli MT5. Anglický systém so strojovým prekladom mierne prekonáva svoje jednojazyčné náprotivky vo viacerých úlohách. Napriek tomu, že tento model bol natrénovaný na väčšom množstve dát zlepšenie nie je dostatočne signifikantné. To ukazuje, že použitie natívne viacjazyčných systémov je sľubným prístupom pre budúci výskum. Tiež prezentujem metódu získavania dokumentov v rôznych jazykoch pomocou algoritmu BM25 a porovnávam ju s anglickým retrievalom. Používanie viacjazyčných dôkazov sa javí ako prospešné a zlepšuje výkonnosť systému systémov.
Machine Learning for Natural Language Question Answering
Sasín, Jonáš ; Fajčík, Martin (referee) ; Smrž, Pavel (advisor)
This thesis deals with natural language question answering using Czech Wikipedia. Question answering systems are experiencing growing popularity, but most of them are developed for English. The main purpose of this work is to explore possibilities and datasets available and create such system for Czech. In the thesis I focused on two approaches. One of them uses English model ALBERT and machine translation of passages. The other one utilizes the multilingual BERT. Several variants of the system are compared in this work. Possibilities of relevant passage retrieval are also discussed. Standard evaluation is provided for every variant of the tested system. The best system version has been evaluated on the SQAD v3.0 dataset, reaching 0.44 EM and 0.55 F1 score, which is an excellent result compared to other existing systems. The main contribution of this work is the analysis of existing possibilities and setting a benchmark for further development of better systems for Czech.
Visual Question Answering
Kocurek, Pavel ; Ondřej, Karel (referee) ; Fajčík, Martin (advisor)
Visual Question Answering (VQA) je systém, kde je vstupem obrázek s otázkou a výstupem je odpověď. Navzdory mnoha pokrokům ve výzkumu se VQA, na rozdíl od počítačově generovaných popisů obrázků, v praxi používá jen zřídka. Cílem této práce je zúžit mezeru mezi výzkumem a praxí. Z tohoto důvodu byla kontaktována komunita zrakově postižených a byla jim nabídnuta demonstrativní aplikace VQA a následně byla vytvořena mobilní aplikace. Byla provedena studie s 20 účastníky z komunity. Nejprve účastníci zkoušeli demonstrativní aplikaci po dobu dvou týdnů a následně byli požádáni o vyplnění dotazníku.   80 % respondentů hodnotilo přesnost aplikace VQA jako dostatečnou nebo lepší a většina z nich by ocenila, kdyby jejich aplikace pro generování popisů podporovala také VQA. Po tomto zjištění práce porovná získané znalosti z VQA se znalostmi z popisů v různých scénářích. Byla vytvořena datová sada 111 obrázků různorodých scén s ručně anotovanými popisky. Experiment porovnávající získané znalosti ukázal úspěšnost 69,9 % pro VQA a 46,2 % pro popisy obrázků. V dalším experimentu v 70,9 % případů účastníci vybrali správný popis za pomocí VQA. Výsledky naznačují, že pomocí VQA je možné zjistit více znalostí o detailech obrázků než je to v případě generovaných popisů.
Low-Resource Neural Machine Translation
Filo, Denis ; Fajčík, Martin (referee) ; Jon, Josef (advisor)
This thesis deals with neural machine translation (NMT) for low-resource languages. The goal was to evaluate current techniques by using the experiments and suggest their improvements. The translation systems in this thesis used the  neural network transformer architecture and were trained by the Marian framework. The selected language pairs were Slovak with Croatian and Slovak with Serbian. The subjects of the experiments were the transfer learning techniques and semi-supervised learning.
Machine Learning for Question Answering in Czech
Pastorek, Peter ; Fajčík, Martin (referee) ; Smrž, Pavel (advisor)
This Master's thesis deals with teaching neural network question answering in Czech. Neural networks are created in Python programming language using the PyTorch library. They are created based on the LSTM structure. They are trained on the Czech SQAD dataset. Because Czech data set is smaller than the English data sets, I opted to extend neural networks with algorithmic procedures. For easier application of algorithmic procedures and better accuracy, I divide question answering into smaller parts.

National Repository of Grey Literature : 29 records found   1 - 10nextend  jump to record:
Interested in being notified about new results for this query?
Subscribe to the RSS feed.