Národní úložiště šedé literatury Nalezeno 64 záznamů.  předchozí11 - 20dalšíkonec  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Školní větné rozbory jako možný zdroj závislostních korpusů (?)
Konárová, Marie ; Vidová Hladká, Barbora (vedoucí práce) ; Zeman, Daniel (oponent)
Cílem práce je prozkoumat možnosti využití dat ze školních větných roz- borů pro značkování slov v jazykových korpusech. Za účelem ověření této hy- potézy byla vybrána množina vět, které byly předloženy žákům základních a středních škol k větnému rozboru. Sběr dat probíhal s využitím funkčního prototypu editoru větných rozborů Čapek. Editor je stále vyvíjen, mimo jiné i na základě zpětné vazby získané při jeho používání žáky i učiteli. Na základě nasbíraných dat byla odvozena transformační pravidla pro konverzi údajů ze školních větných rozborů do datových struktur využívaných Pražským závis- lostním korpusem. Byla testována jak úspěšnost konverze pomocí navržených pravidel, tak přesnost žáků při provádění větných rozborů. 1
Automatické určování zájmenné koreference v češtině
Košarko, Ondřej ; Mírovský, Jiří (vedoucí práce) ; Vidová Hladká, Barbora (oponent)
Název práce: Automatické určování zájmenné koreference v češtině Autor: Ondřej Košarko Katedra (ústav): ÚFAL MFF UK Vedoucí bakalářské práce: RNDr. Jiří Mírovský, Ph.D. e­mail vedoucího: mirovsky@ufal.mff.cuni.cz Abstrakt: Cílem této práce je představit automatickou proceduru značkování zájmen­ né koreference v českém textu anotovaném na morfologické a analytické rovině dle systému Pražského závislostního korpusu. Procedura využívá metodu strojového učení, pro jejíž trénování jsou použita ručně anotovaná data Pražského závislostního korpusu. Součástí práce je také vyhodnocení výsledků. Klíčová slova: zájmenná koreference, automatické určování, strojové učení
Interface k online internetovým přenosům v přirozeném jazyce
Macošek, Jan ; Hajič, Jan (vedoucí práce) ; Vidová Hladká, Barbora (oponent)
Tento text popisuje práci na vytvoření interfacu k živým internetovým přenosům. Ty bylo nutné převést z textové podoby do podoby hlasové a následně přehrát na elektronickém králíkovi Nabaztagovi. Uživateli je pak umožněno hlasové ovládání, a tak se text zabývá i trénováním akustických modelů sadou HTK a jejich následnému zapojení v rozpoznávání řeči programem Julius. Kromě toho je rozebráno i samotné hledání a zpracování přenosů a řešení některých problémů, které vznikly při syntéze řeči aplikované na sportovní texty.
Automatické určování sémantických preferencí pro slovesná valenční doplnění
Vandas, Karel ; Lopatková, Markéta (vedoucí práce) ; Vidová Hladká, Barbora (oponent)
Slovesná valence hraje důležitou úlohu v popisu chování sloves a propojuje povrchovou realizaci jazyka s jeho sémantikou. Sloveso samotné může být použito ve více významech. Slovesná valenční doplnění pak pomáhají identifikovat správné čtení slovesa. Dosud byla většinou slovesná valenční doplnění studována zejména z morfologického a syntaktického hlediska. Účelem této práce je vyhodnotit možnosti automatického určení sémantických preferencí pro valenční slovesná doplnění. Práce taktéž porovnává úspěšnost systému s různými úrovněmi dostupné informace o valenci ve spojení se shlukovou analýzou. Práce je zakončena evaluací dostupných metod a jejich vzájemným srovnáním.
Semantic disambiguation using Distributional Semantics
Prodanovic, Srdjan ; Hana, Jiří (vedoucí práce) ; Vidová Hladká, Barbora (oponent)
Ve statistických modelů sémantiky jsou významy slov pouze na základě jejich distribuční vlastnosti.Základní zdroj je zde jeden slovník, který lze použít pro různé úkoly, kde se význam slov reprezentovány jako vektory v vektorového prostoru, a slovní podoby jako vzdálenosti mezi jejich vektorových osobnosti. Pomocí silných podobnosti, může vhodnost podmínek uvedených zejména v souvislosti se vypočítá a používá pro celou řadu úkolů, jeden z nich je slovo smysl Disambiguation. V této práci bylo vyšetřeno několik různých přístupů k modelům z vektorového prostoru a prováděny tak, aby k překročení vyhodnocení vlastního výkonu na Word Sense disambiguation úkolem Prague Dependency Treebank.
Quantifying Determiners from the Distributional Semantics View
Gutiérrez Vasques, María Ximena ; Lopatková, Markéta (vedoucí práce) ; Vidová Hladká, Barbora (oponent)
Název práce: Quantifying Determiners from the Distributional Semantics View Autor: Maria Ximena Gutierrez Vasques Katedra: Ústav formální a aplikované lingvistiky Vedoucí diplomové práce: doc. RNDr. Markéta Lopatková, Ph.D. Abstrakt: Distribuční sémanika představuje moderní přístup k zachycení sémantiky přirozeného jazyka. Jedním z témat, kterým zatím v rámci tohoto přístupu nebyla věnována dostatečná pozornost, je možnost automatické detekce logických relací jako vyplývání. Tato diplomová práce navazuje na práci autorů Baroni, Bernar- di, Do and Shan (2012), kteří se zabývají relací vyplývání mezi kvantifikujícími výrazy. Citovaná práce využívá detekce pomocí SVN klasifikátorů natrénavaných na sémantických vektorech reprezentujících relaci vyplývání. Popisované exper- imenty se nezaměřovaly na nastaveni parametrů SVN klasifikátoru, proto se v této práci vracíme k původním experimentům popisujícím relaci vyplývání mezi kvantifikovanýmo jmennými konstrukcemi, navrhujeme nové konfigurace klasi- fikátoru a optimalizujeme nastavení parametrů. Dosaženou přesnost predikce porovnáváme s původními výsledky a ukazujeme, že SVM klasifikátor s kvadrat- ickým polynomiálním jádrem dosahuje lepších výsledků....
Functional Arabic Morphology: Formal System and Implementation
Smrž, Otakar ; Vidová Hladká, Barbora (vedoucí práce) ; Hajič, Jan (oponent) ; Habash, Nizar Y. (oponent)
Functional Arabic Morphology is a formulation of the Arabic inflectional system seeking the working interface between morphology and syntax. ElixirFM is its high-level implementation that reuses and extends the Functional Morphology library for Haskell. Inflection and derivation are modeled in terms of paradigms, grammatical categories, lexemes and word classes. The computation of analysis or generation is conceptually distinguished from the general-purpose linguistic model. The lexicon of ElixirFM is designed with respect to abstraction, yet is no more complicated than printed dictionaries. It is derived from the open-source Buckwalter lexicon and is enhanced with information sourcing from the syntactic annotations of the Prague Arabic Dependency Treebank. MorphoTrees is the idea of building effective and intuitive hierarchies over the information provided by computational morphological systems. MorphoTrees are implemented for Arabic as an extension to the TrEd annotation environment based on Perl. Encode Arabic libraries for Haskell and Perl serve for processing the non-trivial and multi-purpose ArabTEX notation that encodes Arabic orthographies and phonetic transcriptions in parallel.
Assessing the impact of manual corrections in the Groningen Meaning Bank
Weck, Benno ; Lopatková, Markéta (vedoucí práce) ; Vidová Hladká, Barbora (oponent)
Projekt Groningen Meaning Bank (GMB) vytváří korpus s bohatou syntaktickou a sémantickou anotací. Anotace v GMB jsou generovány poloautomaticky na základě dvou zdrojů: (i) Vstupní anotace ze sady standardních nástrojů pro zpracování přirozeného jazyka (NLP) (ii) Opravy/vylepšení od lidských anotátorů. Například na úrovni anotace slovních druhů existuje 18 000 takových oprav, nazývaných Bits of Wisdom (BOWs). V této práci zkoumáme možnosti zlepšení technik NLP pomocí zapojení těchto informací. V experimentech používáme BOWs pro přetrénování analyzátoru slovních druhů. Zjistili jsme, že analyzátor může být vylepšen tak, aby opravil až 70% nalezených chyb v testovacích datech. Tento zlepšený analyzátor navíc napomáhá ke zlepšení výkonu parseru. Nejspolehlivější cestou se ukázalo být preferování vět s vysokou mírou potvrzených analýz po přetrénování. V experimentu se simulovaným aktivním učením používajícím Query-by-Uncertainty (QBU) a Query- by-Committee (QBC) jsme ukázali, že selektivní vzorkování vět pro přetrénování dává lepší výsledky a vyžaduje méně dat než použití náhodného výběru. V doplňkové pilotní studii jsme zjistili, že standardní analyzátor slovních druhů trénovaný modelem maximální entropie může být rozšířen použitím známých analýz ke zlepšení svých rozhodnutí na celé sekvenci bez přetrénování...
Sledování aktivovanosti objektů v textech
Václ, Jan ; Vidová Hladká, Barbora (vedoucí práce) ; Novák, Michal (oponent)
V kontextu analýzy diskurzu stupeň aktivovanosti (salience) modeluje aktuální míru zapojenosti odkazovaných objektů a její vývoj v průběhu textu. Algoritmus pro určování aktivovanosti a vizualizaci jejího průběhu již byl navržen a otestován na malém vzorku dat. Tato práce reprodukuje výsledky algoritmu ve větším měřítku pomocí dat z Pražského diskurzního korpusu 1.0. Výsledky jsou pak zpracovány do přístupného tvaru a je provedena jejich analýza jak pomocí vizuálního výstupu, tak i výstupů kvantitativních. Přitom jsou zohledněny dva základní stavební kameny aktivovanosti; koreferenční vztahy a informační struktura věty. V závěru jsou provedeny experimenty zkoumající možné využití informace o aktivovanosti v některé z úloh strojového učení při zpracování přirozeného jazyka na příkladech shlukování dokumentů a tematických modelů. Powered by TCPDF (www.tcpdf.org)
Detekce podezřelých anotací
Václ, Jan ; Vidová Hladká, Barbora (vedoucí práce) ; Hana, Jiří (oponent)
Tato práce popisuje způsob kontroly morfologické anotace pomocí strojového učení a představuje implementaci tohoto přístupu - aplikaci MissTagger. Procedura kontroly zahrnuje jak detekci chyb, tak jejich opravu. Tento přístup je založen na zjednodušeném algoritmu strojového učení, který si jednotlivé trénovací případy (instance) ukládá přímo do paměti bez zobecňování. Za tyto instance jsou považovány morfologické značky jednotlivých slov a jako rysy těchto instancí je brán jejich větný kontext pevné délky. Konkrétní slova, jejichž morfologické značky tvoří tento kontext, se vybírají buď přímo podle lineární struktury věty, nebo na základě závislostního stromu její syntaktické analýzy. Do experimentů k vyhodnocení tohoto přístupu jsou zapojeny dva jazyky - čeština a angličtina.

Národní úložiště šedé literatury : Nalezeno 64 záznamů.   předchozí11 - 20dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.