Národní úložiště šedé literatury Nalezeno 33 záznamů.  začátekpředchozí14 - 23další  přejít na záznam: Hledání trvalo 0.02 vteřin. 
Automatic Webpage Content Categorisation and Extraction
Rein, Michal ; Koutenský, Michal (oponent) ; Dolejška, Daniel (vedoucí práce)
This thesis describes the development of a flexible system for automatically categorising and extracting content from web pages, with a focus on the darknet environment. We have designed a highly adaptable and scalable system capable of handling any type of content, while taking great care in considering the overall architecture, database structure, and processing pipeline. Using the state-of-the-art language model trained on the natural language inference task, we demonstrate the model's potential to categorise content effectively in a zero-shot environment. We also conduct an analysis of the performance of various hypothesis templates. To further enhance the data extraction process, we have integrated a named entity recognition model and templating methodology for content extraction and proposed an automated segmentation approach using OpenAI's ChatGPT model. In addition, we have developed a user-friendly web client application to enhance the system's accessibility and ease-of-use, evaluated the achieved results, and identified areas for further research and development in this field.
Important Entity Recognition in Web Page Text
Svítková, Veronika ; Hynek, Jiří (oponent) ; Burget, Radek (vedoucí práce)
The aim of this thesis is training named entity recognition model on a dataset created using structured data. Datasets were created from the names of products and books extracted from structured data in JSON-LD and Microdata format. Structured data were extracted from e-shop and social cataloging websites by web scraping. Names were used as a dataset by themselves as well as webpage text with automatically annotated matches of the names. In total eight models in Czech language were trained for recognizing names of products and books using spaCy library. F-score results are up to 89.94 for products and up to 84.26 for books evaluated on a created testing dataset.
Call Sign Detection and Recognition in VHF Communication
Dedič, Juraj ; Kocour, Martin (oponent) ; Szőke, Igor (vedoucí práce)
This work explores the processing of data from air traffic communication in order to detect and recognize the~call signs it contains. Particularly it involves recognizing these call signs in human made and automated text transcripts of the communication between pilots and air traffic controllers. The thesis compares various ways of solving this and describes their problems. It implements a system for the identification of these call signs using a suitable technology based on large language models. One of the outputs of this work is a service that is able to distinguish the call signs, which enables indexation and sorting of this data in an efficient way.
Named Entity Recognition Exploiting Sub Word Information
Dobrovodský, Patrik ; Egorova, Ekaterina (oponent) ; Kesiraju, Santosh (vedoucí práce)
The aim of this thesis is the creation of a Named Entity Recognition system based on an older state-of-the-art model and studying how subword information can improve the recognition of out-of-vocabulary words. This proposed system besides English has to support two additional Indo-European languages: German and Hungarian. This work features a named entity tagger based on deep learning using pretrained and custom-trained word embeddings, sparse features, and character embeddings extracted by a Convolutional Neural Network. All these features are then processed by sequence-based (bidirectional Long Short-Term Memory) and feature-based (Conditional Random Field) approaches with the goal of achieving a F1-score similar to the work it is based on, and to compare how far present time state-of-the-art systems have evolved. The result is a system that achieves a 90.98% F1-score on the CoNLL 2003 English test dataset using pretrained word embeddings, not far behind the original work's 91.26%. For the other two languages, the model scores 89.34% on the WikiAnn German test dataset and 93.04% on the WikiAnn Hungarian test dataset with the usage of custom-trained embeddings.
Zjednoznačňování pojmenovaných entit ve slovenštině
Križan, Samuel ; Otrusina, Lubomír (oponent) ; Smrž, Pavel (vedoucí práce)
Práca sa zaoberá rozpoznávaním a zjednoznačňovaním pomenovaných entít. V rámci práce bol vytvorený základný systém obsahujúci všetky prerekvizity potrebné pre zjednoznačňovanie pomenovaných entít v slovenčine. Súčasťou systému je vytvorenie znalostnej bázy z exportu slovenskej Wikipédie. Tá bola následne porovnávaná so znalostnou bázou z Wikidát, čím sa zistilo, že hlavným prínosom použitia znalostnej bázy z Wikipédie pre slovenčinu je väčšie pokrytie entitami s odkazom na slovenskú Wikipédiu a lepšie určovanie tried entít. Okrem toho bola vykonaná aj aktualizácia morfologického slovníka výskumnej skupiny KNOT@FIT, ktorá priniesla zlepšenie v rozsahu 33-39 %. Práca predpokladá možné využitie v spojitosti s rozšírením systému o zjednoznačňovací modul a zlepšením pokrytia alternatívnych pomenovaní.
Neural Network Based Named Entity Recognition
Straková, Jana ; Hajič, Jan (vedoucí práce) ; Černocký, Jan (oponent) ; Konopík, Miloslav (oponent)
Název práce: Rozpoznávání pojmenovaných entit pomocí neuronových sítí Autor: Jana Straková Ústav: Ústav formální a aplikované lingvistiky Vedoucí doktorské práce: prof. RNDr. Jan Hajič, Dr., Ústav formální a apliko- vané lingvistiky Abstrakt: Obor rozpoznávání pojmenovaných entit v češtině (tj. úkol auto- maticky identifikovat a klasifikovat významné části textu, jako například jména lidí, míst a organizací) se významně rozvinul po vydání českého korpusu poj- menovaných entit, Czech Named Entity Corpus (CNEC). Tato doktorská práce předkládá autorské výsledky v oblasti rozpoznávání pojmenovaných entit, ze- jména v češtině. Publikuje práci a výzkum provedený v průběhu přípravy CNEC a později během jeho evaluace. Dále shrnuje autorské výsledky, které před- stavují nejlepší známé výsledky v rozpoznávání českých pojmenovaných entit. Na základě jednoduché neuronové sítě s výstupní funkcí softmax a standardní sadou klasifikačních rysů je popsána metodologie a výsledky, ze kterých později vznikl otevřený software pro rozpoznávání pojmenovaných entit, NameTag. Dok- torská práce je zakončena popisem rozpoznávače založeném na rekurentních neu- ronových sítích s embeddingy slov a embeddingy založenými na znacích, které představují výsledky současného výzkumu v oblasti neuronových sítí. Rozpozná- vač nevyžaduje tvorbu...
Komunikační agent pro informace o Brně
Jurkovič, Juraj ; Fajčík, Martin (oponent) ; Smrž, Pavel (vedoucí práce)
Cieľom tejto práce je preskúmať a následne aplikovať techniky a technické riešenia pri vývoji informačných agentov. Práca sa zameriava na riešenia jednotlivých podproblémov pomocou existujúcich systémov, prepojenie týchto systémov, jejich prispôsobenie pre danú doménu a implementáciu jednotlivých modulov. Uživateľské rozhranie je postavené na multiplatformnej četovacej aplikácii Telegram. Extrakciu informácií zo vstupu uživatela vykonáva služba Dialogflow. Pre uspokojenie požiadavky užívateľa je použitých niekoľko externých služieb. Pre vyhľadávanie v štruktúrovaných dátach je použitá technológia Elasticsearch. Pre extrakciu odpovedí z voľného textu je použitý systém R-net. Výsledkom je systém ktorého znalostnú bázu, ako aj množinu dotazov ktoré je schopný uspokojiť, možno jednoducho rozšíriť a ktorý môže byť nasadený na ľubovoľnú četovaciu platformu.
Deep contextualized word embeddings from character language models for neural sequence labeling
Lief, Eric ; Pecina, Pavel (vedoucí práce) ; Kocmi, Tom (oponent)
Rodina úkolů pro zpracování přirozeného jazyka (NLP), jako je označování po částech řeči (PoS), identifikace pojmenované entity (NER) a identifikace více slov (MWE), zahrnují přiřazení štítků sekvencím slov v textu označování). Většina moderních přístupů strojového učení k sekvenčnímu označování využívá vkládání slov, naučené reprezentace textu, ve kterých mají slova s podobnými významy podobné reprezentace. Docela nedávno, kontextualizované slovní embeddings získaly hodně pozornosti, protože na rozdíl od předem vyškolených kontextově necitlivých embeddings, jako je word2vec, jsou schopni zachytit význam slova v kontextu. V této diplomové práci hodnotím výkonnost různých nastavení vkládání (kontextu citlivé, kontextově necitlivé slovo, stejně jako slovo specifické pro danou práci, charakter, lemma a PoS) na třech výše uvedených úlohách označování sekvence pomocí hlubokého modelu učení ( BiLSTM) a portugalských datových sad.
Komponent pro sémantické obohacení
Doležal, Jan ; Otrusina, Lubomír (oponent) ; Dytrych, Jaroslav (vedoucí práce)
Tato diplomová práce se zabývá komponentou pro sémantické obohacení textu (SEC), která ve vstupním textovém dokumentu nebo vertikálním textu vyhledá entity (např. osoby nebo místa) a informace o nich vrátí na výstup. Cíle této komponenty jsou vytvoření jednotného rozhraní pro nástroje rozpoznávající entity v textu, umožnění paralelního zpracování dokumentů, úspora operační paměti při využívání znalostní báze a zrychlení přístupu k jejímu obsahu. K tomu byl specifikován výstup pro nástroje rozpoznávající entity v textu, implementován nástroj pro uložení předzpracované znalostní báze do sdílené paměti a při tvorbě komponenty bylo využito schéma klient-server.
Analýza a získávání informací ze souboru dokumentů spojených do jednoho celku
Jarolím, Jordán ; Bartík, Vladimír (oponent) ; Kreslíková, Jitka (vedoucí práce)
Tato práce se zabývá získáváním relevantních informací z dokumentů, automatizovaným rozdělováním vícero dokumentů spojených do jednoho celku a tvorbou nástroje, který umožňuje získání relevantních informací z dokumentů a jejich automatizované rozdělení. Jsou diskutovány především metody pro získání textových dat ze skenovaných dokumentů, rozpoznávání pojmenovaných entit, shlukování dokumentů, jejich podpůrné algoritmy a jsou popisovány metriky sloužící pro automatizované rozdělování dokumentů. Dále je vysvětlen algoritmus implementovaného prototypu daného systému, jsou popsány použité nástroje a techniky a je evaluována jeho úspěšnost. Nakonec jsou diskutována možná rozšíření a budoucí rozvoj této práce.

Národní úložiště šedé literatury : Nalezeno 33 záznamů.   začátekpředchozí14 - 23další  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.