Národní úložiště šedé literatury Nalezeno 30 záznamů.  1 - 10dalšíkonec  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Extrakce vícejazyčných valenčních rámců ze závislostních korpusů
Faryad, Ján ; Zeman, Daniel (vedoucí práce) ; Lopatková, Markéta (oponent)
Vícejazyčné valenční slovníky poskytují užitečné informace o shodě valenčních rámců (sloves a jejich argumentů) v různých jazycích. Tato práce se zaměřuje na vývoj programu, který automaticky vytvoří vícejazyčný valenční slovník na základě paralelních korpusů anotovaných podle Universal Dependencies. Tato úloha zahrnuje jednojazyčnou extrakci valenčních rámců a jejich propojení napříč jazyky. Jsou analyzovány a implementovány různé metody řešení. Práce zahrnuje jak obecný, jazykově nezávislý přístup, tak dodatečná, jazykově specifická rozšíření, poskytnutá konkrétně pro angličtinu, češtinu a slovenštinu. Metody propojování valenčních rámců zahrnují použití slovního zarovnání, morfologické a syntaktické informace obsažené v anotaci UD nebo podobnosti sloves mezi příbuznými jazyky. Kvalita řešení je zhodnocena několika zave- denými metrikami na ručně anotovaných datech nebo porovnáním s existujícím valenčním slovníkem. 1
Typické vzory užívání anglických sloves
Smejkalová, Lenka ; Holub, Martin (vedoucí práce) ; Lopatková, Markéta (oponent)
Metoda CPA (Corpus Pattern Analysis) je korpusová metoda, která analyzuje typické vzory užívání slov v jazykovém korpusu a popisuje význam sloves pomocí kontextových preferencí definovaných jak syntakticky, tak sémanticky [1]. V současné době pomocí CPA a s využitím Britského národního korpusu (BNC) vzniká Slovník vzorů užívání anglických sloves (PDEV, Pattern Dictionary of English Verbs) [1, 2]. Diplomová práce popisuje současný stav slovníku PDEV, zabývá se podrobnou analýzou dostupných dat o typických vzorech užívání anglických sloves a zkoumá, jak lze využít PDEV pro automatickou analýzu lexikálního významu. Dále diplomová práce obsahuje návrh a implementaci procedur pro podporu dalšího vývoje slovníku PDEV. První z nich je extrakce slovesných argumentů z výstupu syntaktické analýzy angličtiny. Druhá procedura využívá tyto extrahované argumenty k vytváření seznamů lexikálních jednotek realizujících sémantické typy. Poslední navržená procedura automaticky rozpoznává typické vzory užívání sloves za pomoci uvedených seznamů ziskaných předchozí procedurou. Součástí práce je též vyhodnocení mezianotátorské shody, evaluace automatické extrakce slovesných argumentů z anglické věty a experimentální ověření účinnosti navržených procedur pro extrakci lexikálních jednotek realizujících jednotlivé sémantické typy a...
Automatické propojování lexikografických zdrojů a korpusových dat.
Bejček, Eduard ; Lopatková, Markéta (vedoucí práce) ; Horák, Aleš (oponent) ; Žabokrtský, Zdeněk (oponent)
Spolu se vznikem stále dalších jazykových zdrojů - slovníků, lexi kálních databází, korpusů, treebanků - roste i potřeba jejich účinného propojování, které by umožnilo snadné využití veškerých shromážděných vlastností a informací. V tomto ohledu je také aktuální téma univerzálních lexikografických formátů. Tato práce zkoumá metody automatického propojování jazykových dat. Představíme zde systém na propojování slovníků, jakými jsou například VALLEX, PDT-Vallex, FrameNet, nebo SemLex,k teré poskytují syntaktickou informaci o svých heslech. Systém je automatický, umožňuje tudíž opakovanou aplikaci na novější verze vyvíjejících se jazykových zdrojů. Na základě syntaktické informace obsažené ve slovníku víceslovných výrazů SemLex navrhujeme metodu vyhledávající tyto výrazy v automaticky anotovaném textu. Praktickým výstupem potvrzujícím úspěšnost použitých metod je mj. propojení slovníků VALLEX a PDT-Vallex vedoucí k doplnění desítek tisíc anotovaných vět z treebanků PDT a PCEDT do VALLEXu. Powered by TCPDF (www.tcpdf.org)
Mapping the Prague Dependency Treebank Annotation Scheme onto Robust Minimal Recursion Semantics
Jakob, Max ; Lopatková, Markéta (vedoucí práce) ; Štěpánek, Jan (oponent)
This thesis investigates the correspondence between two semantic formalisms, namely the tectogrammatical layer of the Prague Dependency Treebank 2.0 (PDT) and Robust Minimal Recursion Semantics (RMRS). It is a rst attempt to relate the dependency based annotation scheme of PDT to a compositional semantics approach like RMRS. An iterative mapping algorithm that converts PDT trees into RMRS structures is developed that associates RMRSs to each node in the dependency tree. Therefore, composition rules are formulated and the complex relation between dependency in PDT and semantic heads in RMRS is analyzed in detail. It turns out that structure and dependencies, morphological categories and some coreferences can be preserved in the target structures. Furthermore, valency and free modi cations are distinguished using the valency dictionary of PDT as an additional resource. The evaluation result of 81% recall shows that systematically correct underspeci ed target structures can be obtained by a rule-based mapping approach, which is an indicator that RMRS is capable of representing Czech data. This nding is novel as Czech, with its free word order and rich morphology, is typologically di erent from language that used RMRS thus far.
Verb Valency Frames Disambiguation
Semecký, Jiří ; Hajič, Jan (vedoucí práce) ; Krbec, Pavel (oponent) ; Lopatková, Markéta (oponent)
Semantic analysis has become a bottleneck of many natural language applications. Machine translation, automatic question answering, dialog management, and others rely on high quality semantic analysis. Verbs are central elements of clauses with strong influence on the realization of whole sentences. Therefore the semantic analysis of verbs plays a key role in the analysis of natural language. We believe that solid disambiguation of verb senses can boost the performance of many real-life applications. In this thesis, we investigate the potential of statistical disambiguation of verb senses. Each verb occurrence can be described by diverse types of information. We investigate which information is worth considering when determining the sense of verbs. Different types of classification methods are tested with regard to the topic. In particular, we compared the Naive Bayes classifier, decision trees, rule-based method, maximum entropy, and support vector machines. The proposed methods are thoroughly evaluated on two different Czech corpora, VALEVAL and the Prague Dependency Treebank. Significant improvement over the baseline is observed.
Valence sloves v Pražském závislostním korpusu
Urešová, Zdeňka ; Hajičová, Eva (vedoucí práce) ; Lopatková, Markéta (oponent) ; Ondrejovič, Slavo (oponent)
Název práce: Valence sloves v Pražském závislostním korpusu Autor: PhDr. Zdeňka Urešová Katedra/Ústav: Ústav formální a aplikované lingvistiky MFF UK Vedoucí práce: Prof. PhDr. Eva Hajičová, DrSc. Abstrakt: Tato disertační práce popisuje valenci sloves v rámci anotace Praž- ského závislostního korpusu (PDT) a jejím hlavním cílem je popsat valenční slovník PDT-Vallex. Tento slovník vznikl při anotaci PDT a díky svému charakteru se stal významným zdrojem valenční informace využitelné jak pro lingvistický výzkum, tak pro počítačové zpracování přirozeného jazyka. V práci popisujeme nejen koncepci slovníku, která úzce souvisí s pojetím valence v rámci Funkčně generativního popisu, ale i vztah slovníku k PDT. Právě na základě tohoto vztahu - úzkého propojení slovníku s korpusem - věnujeme zvláštní pozornost popisu formálních prostředk· diatezí. Navrhujeme transformační pravidla pro sekundární diateze, s jejichž pomocí se dokážeme vyrovnat s případy, kdy formy slovesných valenčních doplnění ve slovníku neodpovídají formám slovesných doplnění v korpusových textech.
Question and Answer Classifier for closed domain Interactive Question Answering
Dinh, Le Thanh ; Lopatková, Markéta (vedoucí práce) ; Schlesinger, Pavel (oponent)
Nowadays natural language processing has made big progress thanks to the application of statistical approaches and to the large amount of data available to train the systems. These progresses are pushed by the several evaluation campaigns. Thanks to them systems are compared and progress measured. These evaluations are mostly based on data sets artificially developed by the organizers of such evaluation campaigns. In our work we show that though useful these data sets are biased and there is the need of developing data generated in a more natural setting by real users. We consider as case studies the classification of questions. In particular we look at the classification of questions types needed in Question Answering systems, and the classification of follow up questions into topic continuation and topic shift needed in Interactive Question Answering. We evaluate classifiers first on TREC data and than on a corpus of real user's data. In both cases the performance of the classifiers drops significantly showing the need of working on more users centered systems. The results also show that the classifiers could be better fine tuned taking into account the new challenges real users data launch to NLP systems. We leave this for future research.
Automatické určování sémantických preferencí pro slovesná valenční doplnění
Vandas, Karel ; Lopatková, Markéta (vedoucí práce) ; Vidová Hladká, Barbora (oponent)
Slovesná valence hraje důležitou úlohu v popisu chování sloves a propojuje povrchovou realizaci jazyka s jeho sémantikou. Sloveso samotné může být použito ve více významech. Slovesná valenční doplnění pak pomáhají identifikovat správné čtení slovesa. Dosud byla většinou slovesná valenční doplnění studována zejména z morfologického a syntaktického hlediska. Účelem této práce je vyhodnotit možnosti automatického určení sémantických preferencí pro valenční slovesná doplnění. Práce taktéž porovnává úspěšnost systému s různými úrovněmi dostupné informace o valenci ve spojení se shlukovou analýzou. Práce je zakončena evaluací dostupných metod a jejich vzájemným srovnáním.
Quantifying Determiners from the Distributional Semantics View
Gutiérrez Vasques, María Ximena ; Lopatková, Markéta (vedoucí práce) ; Vidová Hladká, Barbora (oponent)
Název práce: Quantifying Determiners from the Distributional Semantics View Autor: Maria Ximena Gutierrez Vasques Katedra: Ústav formální a aplikované lingvistiky Vedoucí diplomové práce: doc. RNDr. Markéta Lopatková, Ph.D. Abstrakt: Distribuční sémanika představuje moderní přístup k zachycení sémantiky přirozeného jazyka. Jedním z témat, kterým zatím v rámci tohoto přístupu nebyla věnována dostatečná pozornost, je možnost automatické detekce logických relací jako vyplývání. Tato diplomová práce navazuje na práci autorů Baroni, Bernar- di, Do and Shan (2012), kteří se zabývají relací vyplývání mezi kvantifikujícími výrazy. Citovaná práce využívá detekce pomocí SVN klasifikátorů natrénavaných na sémantických vektorech reprezentujících relaci vyplývání. Popisované exper- imenty se nezaměřovaly na nastaveni parametrů SVN klasifikátoru, proto se v této práci vracíme k původním experimentům popisujícím relaci vyplývání mezi kvantifikovanýmo jmennými konstrukcemi, navrhujeme nové konfigurace klasi- fikátoru a optimalizujeme nastavení parametrů. Dosaženou přesnost predikce porovnáváme s původními výsledky a ukazujeme, že SVM klasifikátor s kvadrat- ickým polynomiálním jádrem dosahuje lepších výsledků....
Forma a funkce u substantiv v češtině: vztah pádu a syntaktické funkce. Na materiálu korpusu současné psané češtiny (SYN2005)
Jelínek, Tomáš ; Petkevič, Vladimír (vedoucí práce) ; Lopatková, Markéta (oponent) ; Uličný, Oldřich (oponent)
Pád je v češtině základním prostředkem morfologické roviny, jímž substantiva vyjadřují svou funkci ve větě. Cílem této práce je popsat z frekvenčního hlediska vztah mezi formou a funkcí substantiv, přesněji řečeno, jak často se prosté a předložkové pády substantiv používají k realizaci syntaktických funkcí ve větě. Práce je založena na rozsáhlém korpusu synchronní psané češtiny SYN2005. Abychom získali údaje o frekvencích syntaktických funkcí substantiv ve vztahu k jejich pádům, opatřili jsme korpus SYN2005 závislostním syntaktickým značkováním, jehož formát jsme převzali z analytické roviny Pražského závislostního korpusu. Syntaktickou anotaci jsme uskutečnili pomocí stochastického MST parseru. Spolehlivost syntaktické anotace však nebyla dostatečně vysoká, vytvořili jsme proto automatický opravný modul, který vyhledává chyby syntaktické anotace ve výstupu stochastického parseru a na základě lingvistických pravidel tyto chyby opravuje. Implementovali jsme 26 různých pravidel, počet chyb anotace se však podařilo snížit jen o 6-8 %. Opravný modul je však možné dále rozvíjet. Lze jím korigovat výstup kteréhokoli závislostního parseru natrénovaného na datech Pražského závislostního korpusu. Syntakticky anotovaný korpus SYN2005 jsme využili jako základ výzkumu frekvence syntaktických funkcí substantiv...

Národní úložiště šedé literatury : Nalezeno 30 záznamů.   1 - 10dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.