Národní úložiště šedé literatury Nalezeno 32 záznamů.  předchozí11 - 20dalšíkonec  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Document Information Extraction
Janík, Roman ; Špaňhel, Jakub (oponent) ; Hradiš, Michal (vedoucí práce)
With development of digitization comes the need for historical document analysis. Named Entity Recognition is an important task for Information extraction and Data mining. The goal of this thesis is to develop a system for extraction of information from Czech historical documents, such as newspapers, chronicles and registry books. An information extraction system was designed, the input of which is scanned historical documents processed by the OCR algorithm. The system is based on a modified RoBERTa model. The extraction of information from Czech historical documents brings challenges in the form of the need for a suitable corpus for historical Czech. The corpora Czech Named Entity Corpus (CNEC) and Czech Historical Named Entity Corpus (CHNEC) were used to train the system, together with my own created corpus. The system achieves 88.85 F1 score on CNEC and 87.19 F1 score on CHNEC, obtaining new state-of-the-art results.
Metody klasifikace textu v kontextu webových stránek
Trstenský, Patrik ; Bartík, Vladimír (oponent) ; Burget, Radek (vedoucí práce)
Tato práce se zabývá problematikou klasifikací textu v kontextu webových stránek. Zkoumá dostupné metody klasifikace a jejich přesnost nad čistým textem z webové stránky. Zabývá se sestrojením datasetu pro trénování těchto metod pro konkrétní doménu. Data pro vytvoření datasetu získáváme z veřejně dostupných stránek, které využívají RDF dokumentů zadefinovaných v HTML kódu. Závěr práce sestává z vytvoření dvou datasetů pro dvě různé domény, dále z využití těchto datasetů na trénování modelů a následného testování jejich přesnosti.
Automatic Webpage Content Categorisation and Extraction
Rein, Michal ; Koutenský, Michal (oponent) ; Dolejška, Daniel (vedoucí práce)
This thesis describes the development of a flexible system for automatically categorising and extracting content from web pages, with a focus on the darknet environment. We have designed a highly adaptable and scalable system capable of handling any type of content, while taking great care in considering the overall architecture, database structure, and processing pipeline. Using the state-of-the-art language model trained on the natural language inference task, we demonstrate the model's potential to categorise content effectively in a zero-shot environment. We also conduct an analysis of the performance of various hypothesis templates. To further enhance the data extraction process, we have integrated a named entity recognition model and templating methodology for content extraction and proposed an automated segmentation approach using OpenAI's ChatGPT model. In addition, we have developed a user-friendly web client application to enhance the system's accessibility and ease-of-use, evaluated the achieved results, and identified areas for further research and development in this field.
Important Entity Recognition in Web Page Text
Svítková, Veronika ; Hynek, Jiří (oponent) ; Burget, Radek (vedoucí práce)
The aim of this thesis is training named entity recognition model on a dataset created using structured data. Datasets were created from the names of products and books extracted from structured data in JSON-LD and Microdata format. Structured data were extracted from e-shop and social cataloging websites by web scraping. Names were used as a dataset by themselves as well as webpage text with automatically annotated matches of the names. In total eight models in Czech language were trained for recognizing names of products and books using spaCy library. F-score results are up to 89.94 for products and up to 84.26 for books evaluated on a created testing dataset.
Call Sign Detection and Recognition in VHF Communication
Dedič, Juraj ; Kocour, Martin (oponent) ; Szőke, Igor (vedoucí práce)
This work explores the processing of data from air traffic communication in order to detect and recognize the~call signs it contains. Particularly it involves recognizing these call signs in human made and automated text transcripts of the communication between pilots and air traffic controllers. The thesis compares various ways of solving this and describes their problems. It implements a system for the identification of these call signs using a suitable technology based on large language models. One of the outputs of this work is a service that is able to distinguish the call signs, which enables indexation and sorting of this data in an efficient way.
Named Entity Recognition Exploiting Sub Word Information
Dobrovodský, Patrik ; Egorova, Ekaterina (oponent) ; Kesiraju, Santosh (vedoucí práce)
The aim of this thesis is the creation of a Named Entity Recognition system based on an older state-of-the-art model and studying how subword information can improve the recognition of out-of-vocabulary words. This proposed system besides English has to support two additional Indo-European languages: German and Hungarian. This work features a named entity tagger based on deep learning using pretrained and custom-trained word embeddings, sparse features, and character embeddings extracted by a Convolutional Neural Network. All these features are then processed by sequence-based (bidirectional Long Short-Term Memory) and feature-based (Conditional Random Field) approaches with the goal of achieving a F1-score similar to the work it is based on, and to compare how far present time state-of-the-art systems have evolved. The result is a system that achieves a 90.98% F1-score on the CoNLL 2003 English test dataset using pretrained word embeddings, not far behind the original work's 91.26%. For the other two languages, the model scores 89.34% on the WikiAnn German test dataset and 93.04% on the WikiAnn Hungarian test dataset with the usage of custom-trained embeddings.
Zjednoznačňování pojmenovaných entit ve slovenštině
Križan, Samuel ; Otrusina, Lubomír (oponent) ; Smrž, Pavel (vedoucí práce)
Práca sa zaoberá rozpoznávaním a zjednoznačňovaním pomenovaných entít. V rámci práce bol vytvorený základný systém obsahujúci všetky prerekvizity potrebné pre zjednoznačňovanie pomenovaných entít v slovenčine. Súčasťou systému je vytvorenie znalostnej bázy z exportu slovenskej Wikipédie. Tá bola následne porovnávaná so znalostnou bázou z Wikidát, čím sa zistilo, že hlavným prínosom použitia znalostnej bázy z Wikipédie pre slovenčinu je väčšie pokrytie entitami s odkazom na slovenskú Wikipédiu a lepšie určovanie tried entít. Okrem toho bola vykonaná aj aktualizácia morfologického slovníka výskumnej skupiny KNOT@FIT, ktorá priniesla zlepšenie v rozsahu 33-39 %. Práca predpokladá možné využitie v spojitosti s rozšírením systému o zjednoznačňovací modul a zlepšením pokrytia alternatívnych pomenovaní.
Neural Network Based Named Entity Recognition
Straková, Jana ; Hajič, Jan (vedoucí práce) ; Černocký, Jan (oponent) ; Konopík, Miloslav (oponent)
Název práce: Rozpoznávání pojmenovaných entit pomocí neuronových sítí Autor: Jana Straková Ústav: Ústav formální a aplikované lingvistiky Vedoucí doktorské práce: prof. RNDr. Jan Hajič, Dr., Ústav formální a apliko- vané lingvistiky Abstrakt: Obor rozpoznávání pojmenovaných entit v češtině (tj. úkol auto- maticky identifikovat a klasifikovat významné části textu, jako například jména lidí, míst a organizací) se významně rozvinul po vydání českého korpusu poj- menovaných entit, Czech Named Entity Corpus (CNEC). Tato doktorská práce předkládá autorské výsledky v oblasti rozpoznávání pojmenovaných entit, ze- jména v češtině. Publikuje práci a výzkum provedený v průběhu přípravy CNEC a později během jeho evaluace. Dále shrnuje autorské výsledky, které před- stavují nejlepší známé výsledky v rozpoznávání českých pojmenovaných entit. Na základě jednoduché neuronové sítě s výstupní funkcí softmax a standardní sadou klasifikačních rysů je popsána metodologie a výsledky, ze kterých později vznikl otevřený software pro rozpoznávání pojmenovaných entit, NameTag. Dok- torská práce je zakončena popisem rozpoznávače založeném na rekurentních neu- ronových sítích s embeddingy slov a embeddingy založenými na znacích, které představují výsledky současného výzkumu v oblasti neuronových sítí. Rozpozná- vač nevyžaduje tvorbu...
Komunikační agent pro informace o Brně
Jurkovič, Juraj ; Fajčík, Martin (oponent) ; Smrž, Pavel (vedoucí práce)
Cieľom tejto práce je preskúmať a následne aplikovať techniky a technické riešenia pri vývoji informačných agentov. Práca sa zameriava na riešenia jednotlivých podproblémov pomocou existujúcich systémov, prepojenie týchto systémov, jejich prispôsobenie pre danú doménu a implementáciu jednotlivých modulov. Uživateľské rozhranie je postavené na multiplatformnej četovacej aplikácii Telegram. Extrakciu informácií zo vstupu uživatela vykonáva služba Dialogflow. Pre uspokojenie požiadavky užívateľa je použitých niekoľko externých služieb. Pre vyhľadávanie v štruktúrovaných dátach je použitá technológia Elasticsearch. Pre extrakciu odpovedí z voľného textu je použitý systém R-net. Výsledkom je systém ktorého znalostnú bázu, ako aj množinu dotazov ktoré je schopný uspokojiť, možno jednoducho rozšíriť a ktorý môže byť nasadený na ľubovoľnú četovaciu platformu.
Deep contextualized word embeddings from character language models for neural sequence labeling
Lief, Eric ; Pecina, Pavel (vedoucí práce) ; Kocmi, Tom (oponent)
Rodina úkolů pro zpracování přirozeného jazyka (NLP), jako je označování po částech řeči (PoS), identifikace pojmenované entity (NER) a identifikace více slov (MWE), zahrnují přiřazení štítků sekvencím slov v textu označování). Většina moderních přístupů strojového učení k sekvenčnímu označování využívá vkládání slov, naučené reprezentace textu, ve kterých mají slova s podobnými významy podobné reprezentace. Docela nedávno, kontextualizované slovní embeddings získaly hodně pozornosti, protože na rozdíl od předem vyškolených kontextově necitlivých embeddings, jako je word2vec, jsou schopni zachytit význam slova v kontextu. V této diplomové práci hodnotím výkonnost různých nastavení vkládání (kontextu citlivé, kontextově necitlivé slovo, stejně jako slovo specifické pro danou práci, charakter, lemma a PoS) na třech výše uvedených úlohách označování sekvence pomocí hlubokého modelu učení ( BiLSTM) a portugalských datových sad.

Národní úložiště šedé literatury : Nalezeno 32 záznamů.   předchozí11 - 20dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.