Národní úložiště šedé literatury Nalezeno 63 záznamů.  začátekpředchozí21 - 30dalšíkonec  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Automatic post-editing of phrase-based machine translation outputs
Rosa, Rudolf ; Mareček, David (vedoucí práce) ; Žabokrtský, Zdeněk (oponent)
Představujeme Depfix, systém pro samočinnou post-edititaci výstupů frázových strojových překladů z angličtiny do češtiny, založený na jazykovědných znalostech. Nejprve jsme rozebrali druhy chyb, kterých se dopouští typický strojový překladač. Poté jsme vytvořili sadu pravidel a statistickou komponentu, které opravují takové chyby, které jsou běžné nebo závažné a může přicházet v úvahu jejich oprava pomocí našeho přístupu. Používáme řadu nástrojů pro zpracování přirozeného jazyka, které nám poskytují rozbor vstupních vět. Navíc jsme reimplementovali závislostní analyzátor a několika způsoby jej upravili pro provádění rozboru výstupů statistických strojových překladačů. Provedli jsme automatická i ruční vyhodnocení, která potvrdila, že kvalita překladů se zpracováním v našem systému zlepšuje.
Sumarizace českých textů z více zdrojů
Brus, Tomáš ; Bojar, Ondřej (vedoucí práce) ; Mareček, David (oponent)
Diplomová práce se zabývá problémem sumarizace sady článků na dané téma. Rozebírá několik možných způsobů sestavování sumarizace a způsoby vyhodnocení jejich výsledků. Součástí práce je implementace popsaných algoritmů a jejich aplikace na vybrané texty. Ty pocházejí z~českých zpravodajských webových serverů a jsou reprezentovány formálně pomocí hloubkové syntaxe (tektogramatická rovina).
AJAX CAT - webový editor s podporou pro překlad
Odcházel, Ondřej ; Bojar, Ondřej (vedoucí práce) ; Mareček, David (oponent)
Cílem této práce je implementace systému pro podporu překladu. Systém je rozdělen na serverovou a klientskou část. Serverová část využívá systém strojového překladu ke generování nápověd při překladu. Prvním druhem nápovědy je tabulka s různými variantami překladu každé fráze překládaného textu. Dalším druhem nápovědy jsou návrhy překladu. Tyto návrhy v každé fázi překladu představují nejpravděpodobnější možnosti pokračování překladu. Klientská část systému je webová aplikace ovládaná překladatelem, kterému nabízí nápovědy získané ze serveru. Kromě toho se také klientská část stará o jednoduchou správu překladových dokumentů.
Vícejazyčná databáze kolokací
Helcl, Jindřich ; Hajič, Jan (vedoucí práce) ; Mareček, David (oponent)
Kolokace jsou skupiny slov, které se v daném jazyce vyskytují častěji spolu, nežli odděleně. Patří mezi ně také spojení, která dávají několika nezávislým slovům nový význam. Tato práce se zabývá nalezením kolokací v objemných datech a vytvořením databáze sloužící k jejich vyhledávání. Pro nalezení kolokací v textu počítáme hodnotu Pointwise Mutual Information založenou na počtu výskytů jednotlivých skupin slov v korpusu. Slova s nejvyšší hodnotou PMI jsou kandidáty na vhodné kolokace. Vybrané kolokace jsou uložené do databáze ve formátu použitelném pro vyhledávání pomocí Apache Lucene. Součástí práce je k vytvořené databázi přidat webové rozhraní, které umožňuje rychlý a jednoduchý způsob pro vyhledávání kolokací. Pokud by tato služba byla dostatečně rychlá a kolokace kvalitní, mohli by ji používat překladatelé k nacházení vhodných ekvivalentů v cílovém jazyce. Také může být používána studenty cizího jazyka k rozšiřování slovní zásoby. Taková databáze bude tvořena nezávisle v několika jazycích, mezi nimiž bude minimálně Čeština a Angličtina. Powered by TCPDF (www.tcpdf.org)
Unsupervised Dependency Parsing
Mareček, David ; Žabokrtský, Zdeněk (vedoucí práce) ; Jurčíček, Filip (oponent) ; Sogaard, Anders (oponent)
Neřízená závislostní analýza je alternativní způsob určování vztahů mezi slovy ve větě. Nepotřebuje žádný anotovaný závislostní korpus, je nezávislý na jazykové teorii a univerzální pro velké množství jazyků. Jeho nevýhodou je ale zatím relativně nízká úspěšnost. V této práci diskutujeme některé předchozí práce a představujeme novou metodu neřízenéhé analýzy. Náš závislostní model se skládá ze čtyř podmodelů: (i) hranový model, který řídí rozdělení dvojic řídících a závislých členů, (ii) model plodnosti, který řídí počet členů závislých na uzlu, (iii) model vzdálenosti, který řídí délku závislostních hran a (iv) model vypustitelnosti. Tento model je založen na předpokladu, že slovaů která se mohou z věty vypustit, aniž by se porušila její gramatičnost jsou v závislostním slově listy. Odvození závislostních struktur provádíme pomocí Gibbsova vzorkovače. Představujeme vzorkovací algoritmus, který zachovovává projektivitu závislostních stromů, cože je velmi užitečnou vlastností. V našich experimentech na 30 jazycích srovnáváme výsledky pro různé parametry modelů. Naše metoda překonávvá dříve publikované výsledky pro většinu zkoumaných jazyků.
Detection and Correction of Inconsistencies in the Multilingual Treebank HamleDT
Mašek, Jan ; Žabokrtský, Zdeněk (vedoucí práce) ; Mareček, David (oponent)
Prostudovali jsme závislostní korpusy, jež jsou součástí projektu HamleDT, a částečně jsme sjednotili soubor značek užitých pro anotaci syntaktické roviny. Následně jsme použili metodu založenou na variačních n-gramech pro automatickou detekci chyb na morfologické a syntaktické rovině. Potom jsme využili výstup morfologického značkovače, respektive závislostního syntaktického analyzátoru pro opravení chyb detekovaných v předchozím kroku. Spolehlivost detekce i opravy chyb na obou anotačních rovinách jsme vyhodnotili na základě náhodně vybraných vzorků nalezených předpokládaných chyb z několika korpusů. Powered by TCPDF (www.tcpdf.org)
Exploring Higher Order Dependency Parsers
Madhyastha, Pranava Swaroop ; Zeman, Daniel (vedoucí práce) ; Mareček, David (oponent)
Většina současných efektivních algoritmů provádí závislostí analýzu faktoringovými závislostními stromy. Ve většině z těchto přístupů parser ztrácí mnoho kontextuální informace během procesu rozkladu. Proto existují přístupy stavět vyšší závislostní analyzátory - druhého řádu [Carreras2007] a třetího řádu [Koo a Collins2010]. V práci by měl přístup Koo a Collins dále využit v jednom nebo více směrech. Možné směry dalšího využití zahrnují, ale nejsou omezeny pouze na: vyšetřování možností rozšíření přístupu neprojektivní analýzy; integraci label parsingu; zahrnutí words-sense během fáze analýzy.
Automatic Error Correction of Machine Translation Output
Variš, Dušan ; Bojar, Ondřej (vedoucí práce) ; Mareček, David (oponent)
Představujeme MLFix, systém pro automatickou statistickou post-editaci, který je duchovním následníkem pravidlového systému, Depfixu. Cílem této práce bylo prozkoumat možné postupy automatické identifikace nejčastějších morfologických chyb tvořených současnými systémy pro strojový překlad a natrénovat vhodné statistické modely, které by byly postaveny na získaných znalostech. Provedli jsme automatickou i ruční evaluaci našeho systému a výsledky porovnali s Depfixem. Systém byl vyvíjen především na výstupech anglicko-českého strojového překladu, cílem ale bylo zobecnit post-editační proces tak, aby byl aplikovatelný na další jazykové páry. Upravili jsme původní pipeline, aby post-editovala výstupy anglicko-německého strojového překladu, a provedli dodatečnou evaluaci této modifikace. Powered by TCPDF (www.tcpdf.org)
Permutation-Invariant Semantic Parsing
Samuel, David ; Straka, Milan (vedoucí práce) ; Mareček, David (oponent)
V poslední době můžeme být svědky úspěšné aplikace metod hlubokého učení na parsování sémantických grafů pro přirozené jazyky. Všechny grafové parsery nicméně dosud byly, podle dostupné literatury, založeny na zbytečně silném předpokladu o fixním uspořádání vrcholů. Tato práce se naopak zabývá sémantickým parsováním, jehož učící algoritmus je invariantní vůči všem permutacím grafových vrcholů. Kromě toho je naším cílem vyvinout takový parser, který bude schopen univerzálně zpracovávat věty z různých jazyků a pro různé cílové sémantické formalismy. Abychom empiricky porovnali náš přístup s konkurenčními systémy, zúčastnili jsme se mezinárodní soutěže na CoNLL 2020: Cross-Framework Meaning Representation Parsing (MRP 2020). Ta porovnává soutěžní systémy na pěti formalismech (AMR, DRG, EDS, PTG a UCCA) a pro čtyři různé zdrojové jazyky (angličtina, čeština, němčina a standardní čínština). Náš parsovací systém, zkráceně nazvaný PERIN, byl jedním z vítězů této soutěže. I proto věříme, že náš přístup představuje slibný směr pro budoucí vývoj sémantických parserů. 1

Národní úložiště šedé literatury : Nalezeno 63 záznamů.   začátekpředchozí21 - 30dalšíkonec  přejít na záznam:
Viz též: podobná jména autorů
7 Mareček, Daniel
1 Mareček, Denis
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.