Národní úložiště šedé literatury Nalezeno 107 záznamů.  začátekpředchozí21 - 30dalšíkonec  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Designing a Multilingual Fact-Checking Dataset from Existing Question-Answering Data
Kamenický, Daniel ; Aparovich, Maksim (oponent) ; Fajčík, Martin (vedoucí práce)
This thesis adresses the lack of multilingual fact-Checking datasets, which contain annotated evidence grounding the supporting or refuting verdict for a fact. Therefore, this work explores the conversion into the fact-checking dataset from an already existing question-answering dataset. In this work, two approaches for converting question-answer pairs into claims are studied. The first approach is to create a dataset based on a monolingual pre-trained seq-2-seq model T5. The model is trained on an English dataset and the inputs and outputs are translated into the desired languages. The second approach is to use the multilingual mT5 model, which can take input and generate output in the desired language. For multilingual model, training datasets need to be translated. The main problem of this work is the machine translation, which achieved around 30 % success rate in a low-resource languages. The experiments showed better results for claims generated from monolingual model using machine translation. On the other hand, the claims generated from multilingual model achieved a success rate of 73 % compared to monolingual model with a success rate of 88 %. Finally, to analyze possible biases label specific claim biases, a logistic-regression based TF-IDF classifier is trained. The classifier, that computes the probability of the claim's veracity just from itself achieves accuracy close to 0.5 for both converted datasets. Thus the converted datasets can be challenging for fact-checking models.
Matching Images to Texts
Hajič, Jan ; Pecina, Pavel (vedoucí práce) ; Průša, Daniel (oponent)
Vytváříme společný pravděpodobnostní model textu a obrázků pro úlohu automatického přiřazování ilustračních fotografií k novinovým článkům. Přistupujeme k úloze z hlediska učení reprezentací: chceme nalézt společnou reprezentaci textu i obrázků nezávislou na vlastnostech jednotlivých modalit, podobně jako multimodální hluboký Boltzmannův stroj Srivastavy a Salakhutdinova. Vstupní obrázky reprezentujeme pomocí předposlední vrstvy konvoluční neuronové sítě Krizhevského a kol., state-of-the-art reprezentace obrázků na základě jejich obsahu. Vytvořili jsme knihovnu Safire pro hluboké učení a správu multimodálních experimentů. Úspěšný vyhledávací systém se nám vyvinout nepodařilo, kvůli obtížnému trénování neuronových sítí na velmi řídkých textových datech. Porozuměli jsme však povaze těchto potíží tak, že věříme, že v navazující práci můžeme lepších výsledků dosáhnout.
Automatické doporučování ilustračních snímků
Odcházel, Ondřej ; Pecina, Pavel (vedoucí práce) ; Holub, Martin (oponent)
Cílem této práce je implementace webové aplikace určené k doporučování ilustračních obrázků. Aplikace dostane na vstupu novinový článek v češtině nebo angličtině a na základě textu sama doporučí vhodné ilustrační obrázky. Implementovaná aplikace také vyhledává obrázky dle vizuální podobnosti. Práce se věnuje teoretickým aspektům extrakce klíčových slov, nebo detekce jazyka textu. Dále jsou rozebrány některé možnosti efektivního hledání podobných vektorů, které jsou využity v komponentě pro vyhledávání vizuálně podobných obrázků. Práce dále popisuje moderní možnosti vývoje webového frontendu i backendu. Algoritmus doporučování obrázků je v rámci práce otestován na uživatelích. Powered by TCPDF (www.tcpdf.org)
Searching relevant articles in extensive collections
Vojt, Ján ; Novák, Jiří (vedoucí práce) ; Bartoš, Tomáš (oponent)
Vyhledávání textu v článcích se standartně řeší fulltextovým vyhledáváním. Při použití pokročilejších metod je možné dosáhnout výrazně lepších výsledků. Předmětem této práce je vytvořit univerzální knihovnu na prohledávání rozsáhlých kolekcí, která je přizpůsobena pro český jazyk. Využívá nástroje schopné pracovat s morfologií a zohledňovat důležitost slov. Součástí je experiment se slovnými spojeními, které do vyhledávání zapojují kontext. Míra uspěšnosti experimentu je ověřena na rozsáhlé kolekci dat. Vytvořená knihovna je tak unikátním nástrojem na zpracování rozsáhlých kolekcí českého textu, přičemž je připravena na rozšíření o další jazyky a metody.
Analýza informačních zdrojů pro rozvoj softwarových aplikací v prostředí grafického průmyslu
Urbánek, Matyáš ; Basl, Josef (vedoucí práce) ; Lipková, Helena (oponent)
Diplomová práce se zaměřuje na analýzu a popis informačních zdrojů pro oblast softwarových aplikací, informačních systémů a souvisejících technologií v tiskovém (polygrafickém) průmyslu. V úvodu je stručně nastíněna informační potřeba a přesycení informacemi v tomto oboru. Dále je definován pojem software pro tiskový průmysl a návazné pojmy jako manažerské informační systémy a systémy výrobních workflow. Pro potřeby analýzy byla vytvořena množina klíčových slov a frází, jejichž vztahy byly vyjádřeny jednoduchými stromovými strukturami. Tato klíčová slova jsou využita během rešeršní činnosti v analyzovaných systémech a vyhledávačích. Pomocí rešeršně analytické činnosti jsou v práci nalezena periodika publikující články věnující se zkoumanému tématu. Analýza se zaměřuje jak na oblast hlubokého webu, kde jsou zkoumány především digitální knihovny a databázová centra, tak na oblast webu povrchového, kde jsou popsána webová sídla odborných, vědeckých a výzkumných organizací spolu s dokumenty, které je možné v rámci těchto internetových prezentací získat. U většiny zahrnutých systémů jsou uvedeny odkazy a citace nalezených primárních dokumentů, které se vztahují ke zpracovávanému tématu. V poslední kapitole je pak stručně popsána výsledná webová prezentace (internetové stránky) se seznamy odkazů na...
Semantic relation extraction from unstructured data in the business domain
Rampula, Ilana ; Pecina, Pavel (vedoucí práce) ; Kuboň, Vladislav (oponent)
V posledních letech se využití textové analytiky v komerční sféřě postupně stává významým tématem pro vědecké a praktické aplikace. Zaměřili jsme se na určování vztahů mezi entitami z dat dodaných partnerskou společností. Analýza textu z této sféry ale vyžaduje jiný přístup: počítání s nepřesnostma a specifickými atributy. V této práci jsme se rozhodli ukázat využití dvou metod pro určování vztahů: tzv. Snowball systém a Metodu vzdáleného dohledu (z angl. Distant Supervision), které jsme přizpůsobili pro dodaná data. Dané metody byli implementovány pro využití strukturovaných a nestrukturovaných dat z firemní databáze. Klíčová slova: Získavání informací, Určování vztahů mezi entitami, Textová analytika, Distant Supervision, Snowball
Aspekty a trendy inteligentního vyhledávání
Pačísková, Jana ; Papík, Richard (vedoucí práce) ; Ivánek, Jiří (oponent)
Diplomová práce se zabývá vyhledáváním informací v kontextu jeho historického vývoje a představuje trendy v integraci inteligentních prvků a tím vznik tzv. inteligentního vyhledávání. Jednotlivé inteligentní prvky jsou popsány v samostatné kapitole, v následující kapitole je pak představeno jejich použití včetně konkrétních příkladů. Práce také mapuje zpracování tématu inteligentního vyhledávání ve vybraných institucích v Česku i v zahraničí; výsledky tohoto průzkumu pro české prostředí jsou prezentovány v přiložené rešerši.
Komunikační agent pro informace o Brně
Křištof, Jiří ; Fajčík, Martin (oponent) ; Smrž, Pavel (vedoucí práce)
Cílem této práce je implementace komunikačního agenta poskytující informace o Brně. Komunikační agent využívá třívrstvé architektury. Pro vlastní odpovídání na otázky jsou použity techniky strojového učení a neuronových sítí. Na základě provedeného testu bylo se systémem spokojeno 58 % respondentů, s přesností odpovědí poté 84 % uživatelů. Přínosem této práce je usnadnění získávání informací o Brně jeho obyvatelům i návštěvníkům.
Multilingual Open-Domain Question Answering
Slávka, Michal ; Dočekal, Martin (oponent) ; Fajčík, Martin (vedoucí práce)
This thesis explores automatic Multilingual Open-Domain Question Answering. In this work are proposed approaches to this less explored research area. More precisely, this work examines if: (i) utilization of an English system is sufficient, (ii) multilingual models can benefit from a translated question into other languages (iii) or avoiding translation is a better choice. English system based on the T5 model that uses a machine translation is compared to natively multilingual systems based on the multilingual MT5 model. The English system with machine translation only slightly outperforms its monolingual counterparts in multiple tasks. Compared to multilingual models, the English system was trained on a much larger dataset, but the results were comparable. This shows that the use of natively multilingual systems is a promising approach for future research. I also present a method of retrieving multilingual evidence using the BM25 ranking algorithm and compare it with English retrieval. The use of multilingual evidence seems to be beneficial and improves the performance of the systems.
Využití syntaxe v metodách pro vyhledávání informací
Straková, Jana
Název práce: Využití syntaxe v metodách pro vyhledávání informací Autor: Bc. Jana Kravalová Katedra (ústav): Ústav formální a aplikované lingvistiky Vedoucí diplomové práce: Mgr. Pavel Pecina, Ph.D. e-mail vedoucího: pecina@ufal.mff.cuni.cz Abstrakt: V posledních letech výzkumu v oblasti vyhledávání informací je věnována značná pozornost metodám založeným na jazykovém modelování. I přesto, že tento přístup dovoluje použití libovolného jazykového modelu, většina publikovaných experimentů byla prováděna s klasickým n-gramovým modelem (mnohdy pouze s unigramovým modelem). Cílem diplomové práce je navrhnout, implementovat a vyhodnotit (na českých datech) metodu, která by pravděpodobnostní model obohatila o použití syntaktické informace získané automaticky (strojově\) z dokumentů i dotazů. V předkládané práci se pokusíme vhodným způsobem zavést syntaktickou informaci do jazykových modelů a ex- perimentálně srovnáme navržený přístup s výsledky unigramového a bigramo- vého povrchového modelu. Kromě využití syntaktické informace se zaměříme také na vliv vyhlazování, stemmingu, lemmatizace, použití stopwords a me- tody rozšiřování dotazů - pseudo relevance feedback. Provedeme také detailní analýzu použitých systémů vyhledávání informace a podrobně popíšeme jejich vlastnosti. Experimenty budou prováděny na...

Národní úložiště šedé literatury : Nalezeno 107 záznamů.   začátekpředchozí21 - 30dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.