Národní úložiště šedé literatury Nalezeno 70 záznamů.  začátekpředchozí51 - 60další  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Semantic Network - Manual Annotation and its Evaluation
Novák, Václav ; Hajič, Jan (vedoucí práce) ; Peregrin, Jaroslav (oponent) ; Štěpánek, Jan (oponent)
The Prague Dependency Treebank (PDT) is a valuable resource of linguistic information annotated on several layers. These layers range from shallow to deep and they should contain all the linguistic information about the text. The natural extension is to add a semantic layer suitable as a knowledge base for tasks like question answering, information extraction etc. In this thesis I set up criteria for this representation, explore the possible formalisms for this task and discuss their properties. One of them, Multilayered Extended Semantic Networks (MultiNet), is chosen for further investigation. Its properties are described and an annotation process set up. I discuss some practical modifications of MultiNet for the purpose of manual annotation. MultiNet elements are compared to the elements of the deep linguistic layer of PDT. The tools and problems of the annotation process are presented and initial annotation data evaluated.
Lexical Association Measures Collocation Extraction
Pecina, Pavel ; Hajič, Jan (vedoucí práce) ; Semecký, Jiří (oponent) ; Baldwin, Timothy (oponent)
This thesis is devoted to an empirical study of lexical association measures and their application to collocation extraction. We focus on two-word (bigram) collocations only. We compiled a comprehensive inventory of 82 lexical association measures and present their empirical evaluation on four reference data sets: dependency bigrams from the manually annotated Prague Dependency Treebank, surface bigrams from the same source, instances of surface bigrams from the Czech National Corpus provided with automatically assigned lemmas and part-of-speech tags, and distance verb-noun bigrams from the automatically part-of-speech tagged Swedish Parole corpus. Collocation candidates in the reference data sets were manually annotated and labeled as collocations and non-collocations. The evaluation scheme is based on measuring the quality of ranking collocation candidates according to their chance to form collocations. The methods are compared by precision-recall curves and mean average precision scores adopted from the field of information retrieval. Tests of statistical significance were also performed. Further, we study the possibility of combining lexical association measures and present empirical results of several combination methods that significantly improved the performance in this task. We also propose a model...
Netgraph-A Tool for Searching in the Prague Dependency Treebank 2.0
Mírovský, Jiří ; Hajič, Jan (vedoucí práce) ; Rosen, Alexandr (oponent) ; Ondruška, Roman (oponent)
Tato práce se zabývá spojením tří existujících stran. Na straně jedné byl Pražský závislostní korpus 2.0, jeden z nejvyspělejších korpusů lingvistického světa. Na straně druhé existoval omezený, ale velmi intuitivní vyhledávací nástroj Netgraph 1.0. A na straně třetí byli uživatelé toužící po takovém jednoduchém nástroji, který by však byl dostatečně silný pro vyhledávání v Pražském závislostním korpusu. V této práci zkoumáme anotaci Pražského závislostního korpusu 2.0, obzvláště tektogramatické roviny, jež je zdaleka nejsložitější rovinou tohoto korpusu, a vytváříme seznam požadavků na dotazovací jazyk, který by umožnil vyhledávání a studium všech lingvistických jevů v korpusu anotovaných. Navrhujeme rozšíření dotazovacího jazyka existujícího vyhledávacího nástroje Netgraphu 1.0 a ukazujeme, že tento rozšířený dotazovací jazyk vyhovuje formulovanému seznamu požadavků. Ukazujeme rovněž, jak pomocí tohoto dotazovacího jazyka mohou být vyhledány všechny podstatné lingvistické jevy anotované v korpusu. Navržený dotazovací jazyk byl rovněž implementován - zmiňujeme se tedy i o vyhledávacím nástroji a hovoříme o datech pro tento nástroj. Nástroj je možno nainstalovat z přiloženého CD-ROMu.
Detekce chyb v rozpoznávání mluvené řeči
Tobolíková, Petra ; Peterek, Nino (oponent) ; Hajič, Jan (vedoucí práce)
Tématem této diplomové práce je detekce chyb v rozpoznávání mluvené řeči. Nejprve jsou stručně představeny principy současného rozpoznávání řeči. Jsou nastíněny problémy, se kterými se rozpoznávání řeči potýká a které způsobují, že stále nefunguje bezchybně. Dále jsou uvedeny stávající známé metody výpočtu tzv. skóre spolehlivosti. V následující části jsou popsány tři metody strojového učení, které byly využity pro implementovanou detekci chyb: logistická regrese, neuronové sítě a rozhodovací stromy. Poté jsou navrženy atributy slov v rozpoznaných větách, které jsou použity jako vstupní proměnné metod strojového učení. Výstupní proměnnou je odhad skóre spolehlivosti. Je zde předveden způsob, jakým byly využity implementace metod strojového učení v softwaru R. Metody byly testovány na nahrávkách českého rádia a televize. Výsledky jednotlivých metod jsou porovnány pomocí křivek ROC, směrodatné chyby detekce a možnosti redukce WER v rozpoznaných větách. Je připojen rovněž popis programu, který je součástí práce. Na závěr jsou shrnuty vlastnosti slova, které se osvědčily jako účinné atributy při detekci chyb.
Verb Valency Frames Disambiguation
Semecký, Jiří ; Hajič, Jan (vedoucí práce) ; Krbec, Pavel (oponent) ; Lopatková, Markéta (oponent)
Semantic analysis has become a bottleneck of many natural language applications. Machine translation, automatic question answering, dialog management, and others rely on high quality semantic analysis. Verbs are central elements of clauses with strong influence on the realization of whole sentences. Therefore the semantic analysis of verbs plays a key role in the analysis of natural language. We believe that solid disambiguation of verb senses can boost the performance of many real-life applications. In this thesis, we investigate the potential of statistical disambiguation of verb senses. Each verb occurrence can be described by diverse types of information. We investigate which information is worth considering when determining the sense of verbs. Different types of classification methods are tested with regard to the topic. In particular, we compared the Naive Bayes classifier, decision trees, rule-based method, maximum entropy, and support vector machines. The proposed methods are thoroughly evaluated on two different Czech corpora, VALEVAL and the Prague Dependency Treebank. Significant improvement over the baseline is observed.
Functional Arabic Morphology: Formal System and Implementation
Smrž, Otakar ; Vidová Hladká, Barbora (vedoucí práce) ; Hajič, Jan (oponent) ; Habash, Nizar Y. (oponent)
Functional Arabic Morphology is a formulation of the Arabic inflectional system seeking the working interface between morphology and syntax. ElixirFM is its high-level implementation that reuses and extends the Functional Morphology library for Haskell. Inflection and derivation are modeled in terms of paradigms, grammatical categories, lexemes and word classes. The computation of analysis or generation is conceptually distinguished from the general-purpose linguistic model. The lexicon of ElixirFM is designed with respect to abstraction, yet is no more complicated than printed dictionaries. It is derived from the open-source Buckwalter lexicon and is enhanced with information sourcing from the syntactic annotations of the Prague Arabic Dependency Treebank. MorphoTrees is the idea of building effective and intuitive hierarchies over the information provided by computational morphological systems. MorphoTrees are implemented for Arabic as an extension to the TrEd annotation environment based on Perl. Encode Arabic libraries for Haskell and Perl serve for processing the non-trivial and multi-purpose ArabTEX notation that encodes Arabic orthographies and phonetic transcriptions in parallel.
Interface k online internetovým přenosům v přirozeném jazyce
Macošek, Jan ; Vidová Hladká, Barbora (oponent) ; Hajič, Jan (vedoucí práce)
Tento text popisuje práci na vytvoření interfacu k živým internetovým přenosům. Ty bylo nutné převést z textové podoby do podoby hlasové a následně přehrát na elektronickém králíkovi Nabaztagovi. Uživateli je pak umožněno hlasové ovládání, a tak se text zabývá i trénováním akustických modelů sadou HTK a jejich následnému zapojení v rozpoznávání řeči programem Julius. Kromě toho je rozebráno i samotné hledání a zpracování přenosů a řešení některých problémů, které vznikly při syntéze řeči aplikované na sportovní texty.
Lexical Association Measures Collocation Extraction
Pecina, Pavel ; Hajič, Jan (vedoucí práce)
Lexical Association Measures:Collocation Extraction Pavel Pecina Abstract of Doctoral Thesis This thesis is devoted to an empirical study of lexical association measures and their application for collocation extraction. We focus on two-word (bigram) collocations only. We compiled a comprehensive inventory of 82 lexical association measures and present their empirical evaluation on four reference data sets: dependency bigrams from the manually annotated Prague Dependency Treebank, surface bigrams from the same source, instances of the previous from the Czech National Corpus provided with automatically assigned lemmas and part~of-speech tags, and distance verb-noun bigrams from the automatically part-of-speech tagged Swedish Parole Corpus. Collocation candidates in the reference data sets were manually annotated and identified as collocations and non-collocations. The evaluation scheme is based on measuring the quality of ranking collocation candidates according to their chance to form collocations. The methods are compared by precision-recall curves and mean average precision scores adopted from the field of information retrieval. Tests of statistical significance were also performed. Further, we study the possibility of combining lexical association measures and present empirical results of several...
Automatická anotace angličtiny na tektogramatické rovině
Toman, Josef ; Hajič, Jan (vedoucí práce) ; Žabokrtský, Zdeněk (oponent)
Tektogramatick á rovina je velmi slo žit á a jej í anotace je n aročná a n ákladná. Na rozdí l od jiných korpusů je Prague English Dependency Treebank (pedt) zalo žen na datech, pro které již existuje syntaktick á anotace, byť principi álně odli šná. C ílem pr áce je navrhnout a implementovat metody automatické anotace vyu ží vaj cí dostupná data a vedoucí k minimalizaci usilí vynaloženého na manu ální anotací. Důule žité je kvalitně vyhodnocen , aby bylo mo žnée ověřit pří nos použit ých metod. Vzniklo n ěkolik desí tek modulů, které jsou zam ěřeny na r ůzné aspekty anotace. Anal ýza jejich činnosti je komplikovaná a vyž adala si vytvo řen složitého syst ému, s jehož pomoc í je možné prov ést velmi podrobný rozbor. Dosa žen e výsledky jsou pozitivní a vybí zejí k pokračov aní v započaté pr áci a jej í mu dal ší mu rozšiřov aní .

Národní úložiště šedé literatury : Nalezeno 70 záznamů.   začátekpředchozí51 - 60další  přejít na záznam:
Viz též: podobná jména autorů
2 Hajič, Jakub
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.