Národní úložiště šedé literatury Nalezeno 70 záznamů.  předchozí11 - 20dalšíkonec  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Hloubková automatická analýza angličtiny
Dušek, Ondřej ; Hajič, Jan (vedoucí práce) ; Vidová Hladká, Barbora (oponent)
Tato diplomová práce popisuje studii hloubkové, tj. sémantické analýzy angličtiny, zejména na základě teoretického popisu pomocí propozic a jejich argumentové struktury. Hlavním cílem práce je vytvořit systém pro automatickou klasi kaci sémantických vztahů mezi propozicemi a jejich argumenty - značkování sémantických rolí. Vyvinuli jsme prostředí pro paralelní zpracování experimentů, přičemž jsme integrovali existující nástroje pro strojové učení a implementovali jak již popsané, tak nové postupy. Prostudovali jsme známé přístupy k tomuto problému a navrhli několik vylepšení, jako např. nové rysy pro klasi kaci, oddělené řešení pro příslovečná určení nebo zvláštní zacházení s řídkými predikáty. Na základě tohoto výzkumu jsme zkonstruovali vlastní systém pro sémantickou analýzu, který sestává z modulů pro disambiguaci predikátů a klasi kaci argumentů. Práce je zakončena testem našeho systému na anglickém korpusu určeném pro soutěž CoNLL 2009 Shared Task.
Matching Images to Texts
Hajič, Jan ; Pecina, Pavel (vedoucí práce) ; Průša, Daniel (oponent)
Vytváříme společný pravděpodobnostní model textu a obrázků pro úlohu automatického přiřazování ilustračních fotografií k novinovým článkům. Přistupujeme k úloze z hlediska učení reprezentací: chceme nalézt společnou reprezentaci textu i obrázků nezávislou na vlastnostech jednotlivých modalit, podobně jako multimodální hluboký Boltzmannův stroj Srivastavy a Salakhutdinova. Vstupní obrázky reprezentujeme pomocí předposlední vrstvy konvoluční neuronové sítě Krizhevského a kol., state-of-the-art reprezentace obrázků na základě jejich obsahu. Vytvořili jsme knihovnu Safire pro hluboké učení a správu multimodálních experimentů. Úspěšný vyhledávací systém se nám vyvinout nepodařilo, kvůli obtížnému trénování neuronových sítí na velmi řídkých textových datech. Porozuměli jsme však povaze těchto potíží tak, že věříme, že v navazující práci můžeme lepších výsledků dosáhnout.
Verb Valency Frames Disambiguation
Semecký, Jiří ; Hajič, Jan (vedoucí práce) ; Krbec, Pavel (oponent) ; Lopatková, Markéta (oponent)
Semantic analysis has become a bottleneck of many natural language applications. Machine translation, automatic question answering, dialog management, and others rely on high quality semantic analysis. Verbs are central elements of clauses with strong influence on the realization of whole sentences. Therefore the semantic analysis of verbs plays a key role in the analysis of natural language. We believe that solid disambiguation of verb senses can boost the performance of many real-life applications. In this thesis, we investigate the potential of statistical disambiguation of verb senses. Each verb occurrence can be described by diverse types of information. We investigate which information is worth considering when determining the sense of verbs. Different types of classification methods are tested with regard to the topic. In particular, we compared the Naive Bayes classifier, decision trees, rule-based method, maximum entropy, and support vector machines. The proposed methods are thoroughly evaluated on two different Czech corpora, VALEVAL and the Prague Dependency Treebank. Significant improvement over the baseline is observed.
Pojmenované entity a ontologie metodami hlubokého učení
Rafaj, Filip ; Hajič, Jan (vedoucí práce) ; Žabokrtský, Zdeněk (oponent)
V této diplomové práci popisujeme metodu pro propojování pojmenovaných entit a ontologické databáze. S použítím hlubokých neuronových sítí a kontextualizovaných embedingů BERT jsme vytořili model, který společně provádí rozpoznávání a disambiguování pojmenovaných entit. Vstupem do systému je text a výstupem je Wikipedia identifikátor pro každou nalezenou entitu. Kontextualizované embedingy byly získány pomocí předtrénovaného modelu BERT bez jeho dalších úprav (ne fine-tuning). Experimentovali jsme s komponentami našeho modelu a také s různými variantami BERT embedingů. Dále jsme vyzkoušeli různé způsoby použití kontextualizovaných embedingů. Náš model byl vyhodnocen pomocí obvyklých metrik a překonává výsledky dosavadně standardních prací, které nepoužívají předtrénované kontextualizované modely. Naše výsledky jsou srovnatelné s výsledky sočasných nejmodernějších systémů.
Netgraph-A Tool for Searching in the Prague Dependency Treebank 2.0
Mírovský, Jiří ; Hajič, Jan (vedoucí práce) ; Rosen, Alexandr (oponent) ; Ondruška, Roman (oponent)
Tato práce se zabývá spojením tří existujících stran. Na straně jedné byl Pražský závislostní korpus 2.0, jeden z nejvyspělejších korpusů lingvistického světa. Na straně druhé existoval omezený, ale velmi intuitivní vyhledávací nástroj Netgraph 1.0. A na straně třetí byli uživatelé toužící po takovém jednoduchém nástroji, který by však byl dostatečně silný pro vyhledávání v Pražském závislostním korpusu. V této práci zkoumáme anotaci Pražského závislostního korpusu 2.0, obzvláště tektogramatické roviny, jež je zdaleka nejsložitější rovinou tohoto korpusu, a vytváříme seznam požadavků na dotazovací jazyk, který by umožnil vyhledávání a studium všech lingvistických jevů v korpusu anotovaných. Navrhujeme rozšíření dotazovacího jazyka existujícího vyhledávacího nástroje Netgraphu 1.0 a ukazujeme, že tento rozšířený dotazovací jazyk vyhovuje formulovanému seznamu požadavků. Ukazujeme rovněž, jak pomocí tohoto dotazovacího jazyka mohou být vyhledány všechny podstatné lingvistické jevy anotované v korpusu. Navržený dotazovací jazyk byl rovněž implementován - zmiňujeme se tedy i o vyhledávacím nástroji a hovoříme o datech pro tento nástroj. Nástroj je možno nainstalovat z přiloženého CD-ROMu.
Vícejazyčná databáze kolokací
Helcl, Jindřich ; Hajič, Jan (vedoucí práce) ; Mareček, David (oponent)
Kolokace jsou skupiny slov, které se v daném jazyce vyskytují častěji spolu, nežli odděleně. Patří mezi ně také spojení, která dávají několika nezávislým slovům nový význam. Tato práce se zabývá nalezením kolokací v objemných datech a vytvořením databáze sloužící k jejich vyhledávání. Pro nalezení kolokací v textu počítáme hodnotu Pointwise Mutual Information založenou na počtu výskytů jednotlivých skupin slov v korpusu. Slova s nejvyšší hodnotou PMI jsou kandidáty na vhodné kolokace. Vybrané kolokace jsou uložené do databáze ve formátu použitelném pro vyhledávání pomocí Apache Lucene. Součástí práce je k vytvořené databázi přidat webové rozhraní, které umožňuje rychlý a jednoduchý způsob pro vyhledávání kolokací. Pokud by tato služba byla dostatečně rychlá a kolokace kvalitní, mohli by ji používat překladatelé k nacházení vhodných ekvivalentů v cílovém jazyce. Také může být používána studenty cizího jazyka k rozšiřování slovní zásoby. Taková databáze bude tvořena nezávisle v několika jazycích, mezi nimiž bude minimálně Čeština a Angličtina. Powered by TCPDF (www.tcpdf.org)
Interface k online internetovým přenosům v přirozeném jazyce
Macošek, Jan ; Hajič, Jan (vedoucí práce) ; Vidová Hladká, Barbora (oponent)
Tento text popisuje práci na vytvoření interfacu k živým internetovým přenosům. Ty bylo nutné převést z textové podoby do podoby hlasové a následně přehrát na elektronickém králíkovi Nabaztagovi. Uživateli je pak umožněno hlasové ovládání, a tak se text zabývá i trénováním akustických modelů sadou HTK a jejich následnému zapojení v rozpoznávání řeči programem Julius. Kromě toho je rozebráno i samotné hledání a zpracování přenosů a řešení některých problémů, které vznikly při syntéze řeči aplikované na sportovní texty.

Národní úložiště šedé literatury : Nalezeno 70 záznamů.   předchozí11 - 20dalšíkonec  přejít na záznam:
Viz též: podobná jména autorů
2 Hajič, Jakub
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.