Národní úložiště šedé literatury Nalezeno 59 záznamů.  předchozí11 - 20dalšíkonec  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Automatic extraction of the main characters from books and their interactions
Brezinová, Viktória ; Mareček, David (vedoucí práce) ; Rosa, Rudolf (oponent)
Cieľom tejto práce bolo automaticky nájsť pomenované postavy v knihách, nájsť všetky ich výskyty a určiť všetky miesta v texte, na ktorých spolu interagovali dve alebo viacero postáv. Jedným z výstupov tejto práce je nástroj na zobrazovanie interaktívnych grafov, na ktorom môžeme vidieť výskyty a interakcie postáv v knihe. Pomocou tohto nástroja môžeme hľadať a analyzovať miesta v texte, na ktorých je výskyt alebo inte- rakcia postáv, keďže grafy sú prepojené s textom knihy. Tiež sme vyhodnotili použité metódy na dátach, ktoré sme predtým nevideli, analyzovali sme chyby a navrhli sme možné vylepšenia, ktoré by mohli byť v budúcnosti preskúmané. 1
Investigating Large Language Models' Representations Of Plurality Through Probing Interventions
Hanna, Michael ; Mareček, David (vedoucí práce) ; Helcl, Jindřich (oponent)
Title: Investigating Large Language Models' Representations Of Plurality Through Probing Interventions Author: Michael Hanna Institute: Institute of Formal and Applied Linguistics Supervisor: RNDr. David Mareček, Ph.D., Institute of Formal and Applied Linguistics Abstract: Large language models (LLMs) have become ubiquitous in natural language processing, but how exactly they process their input and arrive at good downstream task performance is still poorly understood. While much work has been done using probing to examine LLM internals, or behavioral studies, to determine LLMs' linguistic capabilities, these techniques are too weak to allow us to draw conclusions how LLMs process language. In this paper, I use both probing and causal intervention methods to investigate the question of subject-verb agreement with respect to the subject's plurality. I find that while probing reveals that subject plurality information is distributed throughout a sentence, causal interventions suggest that only information stored in linguistically relevant tokens is used. Probing interventions suggest that some but not all probes capture information in a way that reflects LLMs' usage thereof. Keywords: Interpretability, Probing, Natural Language Processing, Computational Linguistics
Analysis and visualization of the GPT-2 language model
Šipoš, Daniel ; Mareček, David (vedoucí práce) ; Rosa, Rudolf (oponent)
Vizualizácia komplexných modelov neurónových sietí s architektúrou typu Transfor- mer je vo všeobecnosti veľmi náročná úloha, ktorá sa väčšinou rieši vizualizáciou blokov Attention a sledovaním, na ktoré slová sa tento blok zameriava. Modely Transformer ale majú veľké množstvo vrstiev, na každej vrstve majú veľké množstvo hláv Attention a každá hlava môže sledovať rôzne lingvistické znaky. My sme sa preto v tejto práci za- merali na vytvorenie programu, ktorý je určený na prehľadnejšiu vizualizáciu správania jazykového modelu GPT-2. Prišli sme so štyrmi metódami vizualizácie, ktoré skúmajú závislosti generovaných slov od prechádzajúcich slov v texte. Tieto závislosti sledujeme tak, že skúsime prvé slovo v texte vynechať alebo zameniť za podobné slovo a pozorujeme zmenu v pravdepodobnosti generovaného slova. Metódy sme vyskúšali na modele GPT- 2 Medium a demonštrujeme, aké výsledky dané metódy vytvorili. Zároveň vyslovujeme hypotézy, ktoré sa pokúšajú objasniť, prečo tieto výsledky vyšli práve tak. 1
Analysis of valid moves in Scrabble
Dančejová, Katarína ; Zeman, Daniel (vedoucí práce) ; Mareček, David (oponent)
Cieľom práce je vytvoriť program, ktorý slúži na analýzu ťahov v spoločenskej hre Scrabble. Slovník jazyka je uložený v dátovej štruktúre GADDAG, ktorá umožňuje rýchle vyhľadávanie slov v slovníku. Ťahy sú vyhodnocované na základe heuristík pre strednú hru a koncovku. Tieto heuristiky berú v úvahu aj strategické aspekty pozície a snažia sa o dosiahnutie čo najvyššieho počtu bodov na konci hry. To má za následok zvýšenie úrovne analýzy ťahov natoľko, že je program hodnotný aj pre skúsenejšieho hráča. Simuláciami je porovnávaná výkonnosť umelej inteligencie používajúcej heuristiku s umelými inteligen- ciami, ktoré heuristiku nepoužívajú. Umelá inteligencia s heuristikou dosahuje v partiách výrazne lepšie výsledky, či už hru začína prvá alebo druhá v poradí. Na analýzu ťahov v Scrabble je vytvorené grafické používateľské rozhranie, ktoré navrhuje najlepšie ťahy podľa preukázane výhodnej heuristiky. 1
Automatické vytváření slovníků z paralelních korpusů
Popelka, Jan ; Pecina, Pavel (vedoucí práce) ; Mareček, David (oponent)
V rámci práce implementujeme vlastní systém pro zarovnání slov v paralelním korpusu. Použitá diskriminativní metoda zarovnání využívá lexikálních asociačních měr a dalších příznaků a vyžaduje malé množství ručně anotovaných trénovacích dat pro optimalizaci parametrů modelu. Optimální zarovnání je nalezeno jako nejlevnější hranové pokrytí v ohodnoceném bipartitním grafu, na základě vybraných suboptimálních zarovnání je rozlišena věrohodnost spojů. Použitá kombinace příznaků je experimentálně vyladěna s ohledem na dosažení optimálních výsledků. Výsledky zarovnání jsou vyhodnoceny a porovnány se systémem GIZA++. Nejlepší natrénovaný model je využit pro zarovnání česko-anglického paralelního korpusu Czeng 0.9. Na základě nejvěrohodnějších spojů je z korpusu extrahován ohodnocený překladový lexikon jednoslovných výrazů. Překladové dvojice jsou seřazeny podle významnosti a je provedeno automatické vyhodnocení přesnosti pro různé velikosti slovníků. Pro tři vybrané velikosti slovníku je vyhodnocení provedeno ručně.
Robust Parsing of Noisy Content
Daiber, Joachim ; Zeman, Daniel (vedoucí práce) ; Mareček, David (oponent)
Ačkoli úspěšnost syntaktické analýzy (parsingu) doménově shodných textů se v posledních letech soustavně zvyšuje, texty mimo trénovací doménu a gramaticky problematické texty nadále vzdorují a často na nich pozorujeme výrazný pokles v kvalitě. V této práci se zaměřujeme na analýzu "zašuměného" vstupu pocházejícího ze služeb, jako je Twitter. Zkoumáme otázku, zda předzpracování textu založené na strojovém překladu a neřízených normalizačních modelech může zvýšit úspěšnost analýzy takových dat. Zkoumané postupy vyhodnocujeme na existujících testovacích datech, kromě toho jsme vytvořili i vlastní data pro závislostní syntaktickou analýzu zašuměných dat z Twitteru. Ukazujeme, že normalizace textu kombinovaná s obecnými i doménově zaměřenými taggery může vést k významnému zlepšení kvality parsingu. Powered by TCPDF (www.tcpdf.org)
Automatic post-editing of phrase-based machine translation outputs
Rosa, Rudolf ; Mareček, David (vedoucí práce) ; Žabokrtský, Zdeněk (oponent)
Představujeme Depfix, systém pro samočinnou post-edititaci výstupů frázových strojových překladů z angličtiny do češtiny, založený na jazykovědných znalostech. Nejprve jsme rozebrali druhy chyb, kterých se dopouští typický strojový překladač. Poté jsme vytvořili sadu pravidel a statistickou komponentu, které opravují takové chyby, které jsou běžné nebo závažné a může přicházet v úvahu jejich oprava pomocí našeho přístupu. Používáme řadu nástrojů pro zpracování přirozeného jazyka, které nám poskytují rozbor vstupních vět. Navíc jsme reimplementovali závislostní analyzátor a několika způsoby jej upravili pro provádění rozboru výstupů statistických strojových překladačů. Provedli jsme automatická i ruční vyhodnocení, která potvrdila, že kvalita překladů se zpracováním v našem systému zlepšuje.
Sumarizace českých textů z více zdrojů
Brus, Tomáš ; Bojar, Ondřej (vedoucí práce) ; Mareček, David (oponent)
Diplomová práce se zabývá problémem sumarizace sady článků na dané téma. Rozebírá několik možných způsobů sestavování sumarizace a způsoby vyhodnocení jejich výsledků. Součástí práce je implementace popsaných algoritmů a jejich aplikace na vybrané texty. Ty pocházejí z~českých zpravodajských webových serverů a jsou reprezentovány formálně pomocí hloubkové syntaxe (tektogramatická rovina).
AJAX CAT - webový editor s podporou pro překlad
Odcházel, Ondřej ; Bojar, Ondřej (vedoucí práce) ; Mareček, David (oponent)
Cílem této práce je implementace systému pro podporu překladu. Systém je rozdělen na serverovou a klientskou část. Serverová část využívá systém strojového překladu ke generování nápověd při překladu. Prvním druhem nápovědy je tabulka s různými variantami překladu každé fráze překládaného textu. Dalším druhem nápovědy jsou návrhy překladu. Tyto návrhy v každé fázi překladu představují nejpravděpodobnější možnosti pokračování překladu. Klientská část systému je webová aplikace ovládaná překladatelem, kterému nabízí nápovědy získané ze serveru. Kromě toho se také klientská část stará o jednoduchou správu překladových dokumentů.
Vícejazyčná databáze kolokací
Helcl, Jindřich ; Hajič, Jan (vedoucí práce) ; Mareček, David (oponent)
Kolokace jsou skupiny slov, které se v daném jazyce vyskytují častěji spolu, nežli odděleně. Patří mezi ně také spojení, která dávají několika nezávislým slovům nový význam. Tato práce se zabývá nalezením kolokací v objemných datech a vytvořením databáze sloužící k jejich vyhledávání. Pro nalezení kolokací v textu počítáme hodnotu Pointwise Mutual Information založenou na počtu výskytů jednotlivých skupin slov v korpusu. Slova s nejvyšší hodnotou PMI jsou kandidáty na vhodné kolokace. Vybrané kolokace jsou uložené do databáze ve formátu použitelném pro vyhledávání pomocí Apache Lucene. Součástí práce je k vytvořené databázi přidat webové rozhraní, které umožňuje rychlý a jednoduchý způsob pro vyhledávání kolokací. Pokud by tato služba byla dostatečně rychlá a kolokace kvalitní, mohli by ji používat překladatelé k nacházení vhodných ekvivalentů v cílovém jazyce. Také může být používána studenty cizího jazyka k rozšiřování slovní zásoby. Taková databáze bude tvořena nezávisle v několika jazycích, mezi nimiž bude minimálně Čeština a Angličtina. Powered by TCPDF (www.tcpdf.org)

Národní úložiště šedé literatury : Nalezeno 59 záznamů.   předchozí11 - 20dalšíkonec  přejít na záznam:
Viz též: podobná jména autorů
7 Mareček, Daniel
1 Mareček, Denis
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.