Národní úložiště šedé literatury Nalezeno 30 záznamů.  předchozí11 - 20další  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Lexikálně-sémantické konverze ve valenčním slovníku
Kettnerová, Václava ; Lopatková, Markéta (vedoucí práce) ; Panevová, Jarmila (oponent) ; Karlík, Petr (oponent)
V disertační práci podáváme návrh reprezentace lexikálně-sémantických konverzí ve valenčním lexikonu. Lexikálně-sémantické konverze chápeme jako vztahy mezi sémanticky blízkými syntaktickými konstrukcemi tvořenými odlišnými lexikálními jednotkami lexematicky totožného slovesa. Tyto vztahy jsou spojeny se změnami ve valenční struktuře slovesa, které vyplývají ze změn ve vzájemném přiřazení situačních participantů a valenčních doplnění. Tyto změny mohou zasahovat počet, typ valenčních doplnění, jejich obligatornost i morfematickou formu. Na základě sémantické a syntaktické analýzy dvou typů lexikálně-sémantické konverze, lokativní konverze a konverze Nositel děje-Místo, navrhujeme, aby lexikálním jednotkám vytvářejícím syntaktické varianty ve vztahu lexikálně-sémantické konverze v datové části lexikonu odpovídaly odlišné valenční rámce propojené atributem -conv, jehož hodnotou bude typ lexikálně-sémantické konverze. Součástí pravidlové komponenty valenčního lexikonu pak budou pravidla určující změny ve vzájemné korespondenci situačních participantů a valenčních doplnění. Ačkoli reprezentaci lexikálně-sémantické konverze primárně navrhujeme pro účely popisu valence českých sloves ve valenčním slovníku VALLEX, předpokládáme, že poznatky uváděné v této práci mohou být využity při popisu tohoto typu vztahu i v...
Assessing the impact of manual corrections in the Groningen Meaning Bank
Weck, Benno ; Lopatková, Markéta (vedoucí práce) ; Vidová Hladká, Barbora (oponent)
Projekt Groningen Meaning Bank (GMB) vytváří korpus s bohatou syntaktickou a sémantickou anotací. Anotace v GMB jsou generovány poloautomaticky na základě dvou zdrojů: (i) Vstupní anotace ze sady standardních nástrojů pro zpracování přirozeného jazyka (NLP) (ii) Opravy/vylepšení od lidských anotátorů. Například na úrovni anotace slovních druhů existuje 18 000 takových oprav, nazývaných Bits of Wisdom (BOWs). V této práci zkoumáme možnosti zlepšení technik NLP pomocí zapojení těchto informací. V experimentech používáme BOWs pro přetrénování analyzátoru slovních druhů. Zjistili jsme, že analyzátor může být vylepšen tak, aby opravil až 70% nalezených chyb v testovacích datech. Tento zlepšený analyzátor navíc napomáhá ke zlepšení výkonu parseru. Nejspolehlivější cestou se ukázalo být preferování vět s vysokou mírou potvrzených analýz po přetrénování. V experimentu se simulovaným aktivním učením používajícím Query-by-Uncertainty (QBU) a Query- by-Committee (QBC) jsme ukázali, že selektivní vzorkování vět pro přetrénování dává lepší výsledky a vyžaduje méně dat než použití náhodného výběru. V doplňkové pilotní studii jsme zjistili, že standardní analyzátor slovních druhů trénovaný modelem maximální entropie může být rozšířen použitím známých analýz ke zlepšení svých rozhodnutí na celé sekvenci bez přetrénování...
Consistency of Linguistic Annotation
Aggarwal, Akshay ; Zeman, Daniel (vedoucí práce) ; Lopatková, Markéta (oponent)
Thesis Abstract Akshay Aggarwal July 2020 This thesis attempts at correction of some errors and inconsistencies in dif- ferent treebanks. The inconsistencies can be related to linguistic constructions, failure of the guidelines of annotation, failure to understand the guidelines on annotator's part, or random errors caused by annotators, among others. We propose a metric to attest the POS annotation consistency of different tree- banks in the same language, when the annotation guidelines remain the same. We offer solutions to some previously identified inconsistencies in the scope of the Universal Dependencies Project, and check the viability of a proposed in- consistency detection tool in a low-resource setting. The solutions discussed in the thesis are language-neutral, intended to work with multiple languages with efficiency. 1
Lexicographic treatment of the valency aspects of verbal diatheses
Vernerová, Anna ; Lopatková, Markéta (vedoucí práce) ; Ivanová, Martina (oponent) ; Petkevič, Vladimír (oponent)
Název práce: Slovníkové zpracování valenčních aspektů slovesných diatezí Autor: Anna Vernerová Ústav: Ústav formální a aplikované lingvistiky Vedoucí disertační práce: doc. RNDr. Markéta Lopatková, Ph.D., Ústav formální a aplikované lingvistiky Klíčová slova: valence, diateze, pasivní participium Abstrakt: Diateze, a to jak ty tvořené pomocí pasivního participia (pasivum, prostý a posesivní rezultativ, recipientní diateze), tak i tzv. zvratné pasivum (deagentizace) byly v minulosti předmětem řady studií jak v bohemistické, tak i v mezinárodní lingvistice, pro češtinu ale dosud chybělo jejich důkladné slovníkové zpracování. V této dizertační práci se zabývám zachycením diatezí tvořených pomocí pasivního participia a s nimi příbuzných verbonominálních konstrukcí v gramatické komponentě valenčního slovníkuVALLEX. Vlastnímu tématu práce předchází krátký historický úvod a podrobné shrnutí pojetí valence ve Funkčním generativním popisu. Title: Lexicographic treatment of the valency aspects of verbal diatheses Author: Anna Vernerová Department: Institute of Formal and Applied Linguistics Supervisor: doc. RNDr. Markéta Lopatková, Ph.D., Institute of Formal and Applied Linguistics Keywords: valency, diathesis, passive participle Abstract: Diatheses have been the topic of a number of linguistic studies in Czech as...
Verbal Valency in a Cross-Linguistic Perspective
Šindlerová, Jana ; Lopatková, Markéta (vedoucí práce) ; Petkevič, Vladimír (oponent) ; Malá, Markéta (oponent)
Verbal Valency in a Cross-Linguistic Perspective Jana Šindlerová Abstract In the thesis, we look upon differences in argument structure of verbs considering the Czech language and the English language. In the first part, we describe the process of building the CzEngVallex lexicon. In the second part, based on the aligned data of the Prague Czech-English Dependency Treebank, we compare the valencies of verbal translation equivalents and comment of their differences. We classify the differences according to their underlying causes. The causes can be based in the linguistic structure of the languages, they can include translatological reasons, or they can be grounded in the character of the descriptive linguistic theory used.
Semantic information from FrameNet and the possibility of its transfer to Czech data
Limburská, Adéla ; Lopatková, Markéta (vedoucí práce) ; Holub, Martin (oponent)
Tématem práce je převod anotace z databáze FrameNet do češtiny a možnost využití takto vzniklých dat pro automatické předpovídání rámců. První část tohoto úkolu, převod anotace z angličtiny do češtiny, byla provedena dvěma způ- soby. Nejprve byl k tomuto účelu použit paralelní korpus anglických vět a jejich českých překladů (PCEDT), následně byl podobný, ale mnohonásobně větší ko- rpus vytvořen strojovým překladem příkladových vět z databáze FrameNet do češtiny. Výsledná data byla částečně ručně evaluována a došlo rovněž k automat- ickému vyřazení snadno rozpoznatelných chyb. Získaná data byla poté použita v experimentech zaměřených na automatické přiřazování rámců pomocí metod strojového učení (rozhodovacích stromů a support vector machines). Vzhledem k tomu, že obě metody dosáhly v předpovídání rámců poměrně nízké úspěšnosti, byla provedena další ruční korekce vstupních dat, čímž se podařilo kvalitu přiřa- zování rámců zvýšit. Srovnání s podobnými experimenty popsanými v odborné literatuře však ukázalo, že výsledky automatického předpovídání významů mohou dosahovat ještě vyšší úspěšnosti. Práce se proto zmiňuje také o odlišných přís- tupech k výběru rysů a možnostech dalšího zlepšování výsledků automatického přiřazování rámců za použití strojového učení. 1
Automatické propojování lexikografických zdrojů a korpusových dat.
Bejček, Eduard ; Lopatková, Markéta (vedoucí práce) ; Horák, Aleš (oponent) ; Žabokrtský, Zdeněk (oponent)
Spolu se vznikem stále dalších jazykových zdrojů - slovníků, lexi kálních databází, korpusů, treebanků - roste i potřeba jejich účinného propojování, které by umožnilo snadné využití veškerých shromážděných vlastností a informací. V tomto ohledu je také aktuální téma univerzálních lexikografických formátů. Tato práce zkoumá metody automatického propojování jazykových dat. Představíme zde systém na propojování slovníků, jakými jsou například VALLEX, PDT-Vallex, FrameNet, nebo SemLex,k teré poskytují syntaktickou informaci o svých heslech. Systém je automatický, umožňuje tudíž opakovanou aplikaci na novější verze vyvíjejících se jazykových zdrojů. Na základě syntaktické informace obsažené ve slovníku víceslovných výrazů SemLex navrhujeme metodu vyhledávající tyto výrazy v automaticky anotovaném textu. Praktickým výstupem potvrzujícím úspěšnost použitých metod je mj. propojení slovníků VALLEX a PDT-Vallex vedoucí k doplnění desítek tisíc anotovaných vět z treebanků PDT a PCEDT do VALLEXu. Powered by TCPDF (www.tcpdf.org)
Assessing the impact of manual corrections in the Groningen Meaning Bank
Weck, Benno ; Lopatková, Markéta (vedoucí práce) ; Vidová Hladká, Barbora (oponent)
Projekt Groningen Meaning Bank (GMB) vytváří korpus s bohatou syntaktickou a sémantickou anotací. Anotace v GMB jsou generovány poloautomaticky na základě dvou zdrojů: (i) Vstupní anotace ze sady standardních nástrojů pro zpracování přirozeného jazyka (NLP) (ii) Opravy/vylepšení od lidských anotátorů. Například na úrovni anotace slovních druhů existuje 18 000 takových oprav, nazývaných Bits of Wisdom (BOWs). V této práci zkoumáme možnosti zlepšení technik NLP pomocí zapojení těchto informací. V experimentech používáme BOWs pro přetrénování analyzátoru slovních druhů. Zjistili jsme, že analyzátor může být vylepšen tak, aby opravil až 70% nalezených chyb v testovacích datech. Tento zlepšený analyzátor navíc napomáhá ke zlepšení výkonu parseru. Nejspolehlivější cestou se ukázalo být preferování vět s vysokou mírou potvrzených analýz po přetrénování. V experimentu se simulovaným aktivním učením používajícím Query-by-Uncertainty (QBU) a Query- by-Committee (QBC) jsme ukázali, že selektivní vzorkování vět pro přetrénování dává lepší výsledky a vyžaduje méně dat než použití náhodného výběru. V doplňkové pilotní studii jsme zjistili, že standardní analyzátor slovních druhů trénovaný modelem maximální entropie může být rozšířen použitím známých analýz ke zlepšení svých rozhodnutí na celé sekvenci bez přetrénování...
Quantifying Determiners from the Distributional Semantics View
Gutiérrez Vasques, María Ximena ; Lopatková, Markéta (vedoucí práce) ; Vidová Hladká, Barbora (oponent)
Název práce: Quantifying Determiners from the Distributional Semantics View Autor: Maria Ximena Gutierrez Vasques Katedra: Ústav formální a aplikované lingvistiky Vedoucí diplomové práce: doc. RNDr. Markéta Lopatková, Ph.D. Abstrakt: Distribuční sémanika představuje moderní přístup k zachycení sémantiky přirozeného jazyka. Jedním z témat, kterým zatím v rámci tohoto přístupu nebyla věnována dostatečná pozornost, je možnost automatické detekce logických relací jako vyplývání. Tato diplomová práce navazuje na práci autorů Baroni, Bernar- di, Do and Shan (2012), kteří se zabývají relací vyplývání mezi kvantifikujícími výrazy. Citovaná práce využívá detekce pomocí SVN klasifikátorů natrénavaných na sémantických vektorech reprezentujících relaci vyplývání. Popisované exper- imenty se nezaměřovaly na nastaveni parametrů SVN klasifikátoru, proto se v této práci vracíme k původním experimentům popisujícím relaci vyplývání mezi kvantifikovanýmo jmennými konstrukcemi, navrhujeme nové konfigurace klasi- fikátoru a optimalizujeme nastavení parametrů. Dosaženou přesnost predikce porovnáváme s původními výsledky a ukazujeme, že SVM klasifikátor s kvadrat- ickým polynomiálním jádrem dosahuje lepších výsledků....
Processing of Turkic Languages
Ciddi, Sibel ; Zeman, Daniel (vedoucí práce) ; Lopatková, Markéta (oponent)
Tato práce se zabývá několika kombinovanými metodami morfologického zpracování turkických jazyků, zejména turečtiny. Sou- částí našich snah bylo i obstarání větších zdrojů jazykových dat, než jaké jsou v současnosti k dispozici, a jejich zpřístupnění veřejnosti. Počítačové zpracování turečtiny zahrnuje specifickou sadu problémů spojených zejména s vysoce produktivní, aglutinační morfologií. Roz- sah veřejně dostupných dat je s ohledem na čistě statistické metody nedostatečný a pro účely strojového učení jsou tato data příliš řídká. Z tohoto důvodu vyhodnocujeme veřejně dostupný morfologický analyzátor TRmorph, založený na konečných převodnících, tedy na pravidlech. Snažíme se rozšířit záběr a slovník tohoto analyzátoru; kombinujeme statistické metody s heuristikami pro rozpoznávání pojmenovaných entit (a konstrukci zeměpisných slovníků), zjednoznačnění morfologické analýzy a zpracování víceslovných výrazů. Výsledky dosavadních experimentů s heuristickými přístupy ukazují slibné rozší- ření pokrytí textu TRmorphem. Statistické metody používáme jako záložní řešení pro jemnější úlohy, které nelze snadno zachytit heuristickými pravidly. Tímto způsobem náš hybridní systém rozšiřuje uplatnění morfologického analyzátoru, jenž je sám postaven čistě na pravidlech. Powered by TCPDF (www.tcpdf.org)

Národní úložiště šedé literatury : Nalezeno 30 záznamů.   předchozí11 - 20další  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.