Národní úložiště šedé literatury Nalezeno 32 záznamů.  předchozí11 - 20dalšíkonec  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Analýza dějových linií na základě shrnutí obsahu knih a uživatelských recenzí
Rúček, Peter ; Dočekal, Martin (oponent) ; Smrž, Pavel (vedoucí práce)
Cieľom tejto práce je vytvoriť systém pre analýzu a klasifikáciu kľúčových dejových línií zo zhrnutých dejových zápletiek a užívateľských recenzií v anglickom jazyku. Zvolený problém je riešený pomocou techniky strojového učenia založenej na transformeroch. Vo vytvorenom riešení je implementované aj sťahovanie dát a bol vytvorený dataset užívateľských recenzií a informácií o knihách prevyšujúci 23 miliónov recenzií a takmer 900 tisíc informácií o knihách. Systém dokáže predikovať aké typy dejových zápletiek sa v dátach nachádzajú.
Multilingual Open-Domain Question Answering
Slávka, Michal ; Dočekal, Martin (oponent) ; Fajčík, Martin (vedoucí práce)
This thesis explores automatic Multilingual Open-Domain Question Answering. In this work are proposed approaches to this less explored research area. More precisely, this work examines if: (i) utilization of an English system is sufficient, (ii) multilingual models can benefit from a translated question into other languages (iii) or avoiding translation is a better choice. English system based on the T5 model that uses a machine translation is compared to natively multilingual systems based on the multilingual MT5 model. The English system with machine translation only slightly outperforms its monolingual counterparts in multiple tasks. Compared to multilingual models, the English system was trained on a much larger dataset, but the results were comparable. This shows that the use of natively multilingual systems is a promising approach for future research. I also present a method of retrieving multilingual evidence using the BM25 ranking algorithm and compare it with English retrieval. The use of multilingual evidence seems to be beneficial and improves the performance of the systems.
Non-Supervised Sentiment Analysis
Karabelly, Jozef ; Landini, Federico Nicolás (oponent) ; Fajčík, Martin (vedoucí práce)
The goal of this thesis is to present an overview of the current state of research in the non-supervised sentiment analysis and identify potential research paths. Besides, the thesis introduces a novel self-supervised pre-training objective. Extending the model trained with the introduced objective with one extra layer of neural network and training it alone shows promising results.  The extended model indicates an ability to encode the abstract representation of overall sentiment, emotions and sarcasm. A custom dataset was specifically collected for the pre-training objective introduced in this thesis. Future improvements and possible research paths are proposed based on the experiments performed with the extended model.
Sémantická podobnost textů
Hajdin, Martin ; Otrusina, Lubomír (oponent) ; Smrž, Pavel (vedoucí práce)
Táto práca sa zaoberá problematikou určovania sémantickej podobnosti textov so zameraním na kategorizáciu webových dokumentov, v tomto prípade záložiek. Súčasťou spracovania je teoretický prehľad metód, pre implementáciu systému. Popisuje sa aj návrh a implementácia jednotlivých metód použitých v systéme. Práca sa taktiež zaoberá vyhodnotením jednotlivých metód, kde sú vybrané metódy otestované podľa určitých kritérií.
Automatická extrakce klíčových slov v češtině
Gallovič, Ľubomír ; Otrusina, Lubomír (oponent) ; Smrž, Pavel (vedoucí práce)
Táto práca sa zaoberá návrhom, implementáciou a testovaním aplikácie pre automatickú extrakciu kľúčových výrazov z odborných textov v českom jazyku. Sú implementované viaceré algoritmy výberu kandidátov a rôzne štatistické a linguistické metódy výpočtu skóre týchto kandidátov. Jednotlivé algoritmy boli analyzované a porovnávané, a tie, ktoré dosiahli v českom jazyku najlepšie výsledky, boli vybrané do finálnej verzie programu.
Struktury trie pro zpracování rozsáhlých textových dat
Rajčok, Andrej ; Otrusina, Lubomír (oponent) ; Smrž, Pavel (vedoucí práce)
Táto práca rozoberá spracovanie prirodzeného jazyka so zameraním sa na morfologickú analýzu a spoznávanie pomenovaných entít. Rozoberá efektívne vyhľadávanie v slovníkoch a v ňom používaných špecializovaných stručných štruktúr a ich praktické implementácie. Popisuje návrh a implementáciu systému pre spoznávanie pomenovaných entít a morfologického analyzátora za využitia stručných štruktúr a nakoniec porovnáva a testuje ich efektivitu a rýchlosť.
Named Entity Recognition Exploiting Sub Word Information
Dobrovodský, Patrik ; Egorova, Ekaterina (oponent) ; Kesiraju, Santosh (vedoucí práce)
The aim of this thesis is the creation of a Named Entity Recognition system based on an older state-of-the-art model and studying how subword information can improve the recognition of out-of-vocabulary words. This proposed system besides English has to support two additional Indo-European languages: German and Hungarian. This work features a named entity tagger based on deep learning using pretrained and custom-trained word embeddings, sparse features, and character embeddings extracted by a Convolutional Neural Network. All these features are then processed by sequence-based (bidirectional Long Short-Term Memory) and feature-based (Conditional Random Field) approaches with the goal of achieving a F1-score similar to the work it is based on, and to compare how far present time state-of-the-art systems have evolved. The result is a system that achieves a 90.98% F1-score on the CoNLL 2003 English test dataset using pretrained word embeddings, not far behind the original work's 91.26%. For the other two languages, the model scores 89.34% on the WikiAnn German test dataset and 93.04% on the WikiAnn Hungarian test dataset with the usage of custom-trained embeddings.
Analýza dějových linií na základě shrnutí obsahu knih a uživatelských recenzí
Rúček, Peter ; Dočekal, Martin (oponent) ; Smrž, Pavel (vedoucí práce)
Cieľom tejto práce je vytvoriť systém pre analýzu a klasifikáciu kľúčových dejových línií zo zhrnutých dejových zápletiek a užívateľských recenzií v anglickom jazyku. Zvolený problém je riešený pomocou techniky strojového učenia založenej na transformeroch. Vo vytvorenom riešení je implementované aj sťahovanie dát a bol vytvorený dataset užívateľských recenzií a informácií o knihách prevyšujúci 23 miliónov recenzií a takmer 900 tisíc informácií o knihách. Systém dokáže predikovať aké typy dejových zápletiek sa v dátach nachádzajú.
Vývoj korelačních pravidel pro detekci kybernetických útoků
Dzadíková, Slavomíra ; Safonov, Yehor (oponent) ; Martinásek, Zdeněk (vedoucí práce)
Diplomová práca sa zaoberá problematikou efektívneho spracovávania logových záznamov a ich následnou analýzou pomocou korelačných pravidiel. Cieľom práce bolo implementovať spracovávanie logových záznamov do štruktúrovanej podoby, extrahovať jednotlivé polia záznamu pomocou modelu pre spracovanie prirodzeného jazyka riešením úlohy zodpovedania otázok, a vyvinúť korelačné pravidlá pre detekciu škodlivého správania. Počas riešenia zadania boli vyhotovené dve dátové sády, jedna so záznamami zo zariadení Windows, druhá obsahuje záznamy z firewallu Fortigate. Vytvorené modely na báze predtrénovaných modelov s architektúrou BERT a XLNet, ktoré boli doučené na riešenie problému parsovania logov pomocou vyhotovených datasetov a ich výsledky boli analyzované a porovnané. Druhá čásť diplomovej práce bola venovaná vývoju korelačných pravidiel, kde bol skúmaný koncept obecného zápisu Sigma. Bolo vytvorených a úspešne otestovaných šesť pravidiel, ktoré boli nasadené vo vlastnom experimentálnom pracovisku v systéme Elastic Stack, pričom každé pravidlo je popísané taktikami, technikami a subtechnikami frameworku MITRE ATT&CK.
Generování kódu z textového popisu funkcionality
Kačur, Ján ; Ondřej, Karel (oponent) ; Smrž, Pavel (vedoucí práce)
Cieľom tejto práce bolo navrhnúť a implementovať systém na generovanie kódu z textového popisu funkcionality. Boli vypracované celkovo 2 systémy, prvý z nich slúžil ako kontrolný prototyp, a druhý ako reálny výstup práce. Zameral som sa na použitie nepredtrénovaných modelov s menšími rozmermi. Obidva systémy používali ako jadro model typu Transformer. Druhý systém využil na rozdiel od prvého syntaktický rozklad kódu aj textových popisov. Dáta pre obidva systémy pochádzali z projektu CodeSearchNet, cieľový jazyk pre generovanie bol jazyk Python. Druhý systém dosiahol lepšie číselné výsledky, ako prvý, s presnosťou predpovede slov 85%, zatiaľ čo prvý len 60%. Systém dokázal doplniť správny kód na dokončenie funkcie, s väčšou časovou odozvou. V tejto práci sa venujem takmer výlučne druhému systému.

Národní úložiště šedé literatury : Nalezeno 32 záznamů.   předchozí11 - 20dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.