Národní úložiště šedé literatury Nalezeno 70 záznamů.  začátekpředchozí21 - 30dalšíkonec  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Lexical Association Measures Collocation Extraction
Pecina, Pavel ; Hajič, Jan (vedoucí práce) ; Semecký, Jiří (oponent) ; Baldwin, Timothy (oponent)
This thesis is devoted to an empirical study of lexical association measures and their application to collocation extraction. We focus on two-word (bigram) collocations only. We compiled a comprehensive inventory of 82 lexical association measures and present their empirical evaluation on four reference data sets: dependency bigrams from the manually annotated Prague Dependency Treebank, surface bigrams from the same source, instances of surface bigrams from the Czech National Corpus provided with automatically assigned lemmas and part-of-speech tags, and distance verb-noun bigrams from the automatically part-of-speech tagged Swedish Parole corpus. Collocation candidates in the reference data sets were manually annotated and labeled as collocations and non-collocations. The evaluation scheme is based on measuring the quality of ranking collocation candidates according to their chance to form collocations. The methods are compared by precision-recall curves and mean average precision scores adopted from the field of information retrieval. Tests of statistical significance were also performed. Further, we study the possibility of combining lexical association measures and present empirical results of several combination methods that significantly improved the performance in this task. We also propose a model...
Detekce chyb v rozpoznávání mluvené řeči
Tobolíková, Petra ; Hajič, Jan (vedoucí práce) ; Peterek, Nino (oponent)
Tématem této diplomové práce je detekce chyb v rozpoznávání mluvené řeči. Nejprve jsou stručně představeny principy současného rozpoznávání řeči. Jsou nastíněny problémy, se kterými se rozpoznávání řeči potýká a které způsobují, že stále nefunguje bezchybně. Dále jsou uvedeny stávající známé metody výpočtu tzv. skóre spolehlivosti. V následující části jsou popsány tři metody strojového učení, které byly využity pro implementovanou detekci chyb: logistická regrese, neuronové sítě a rozhodovací stromy. Poté jsou navrženy atributy slov v rozpoznaných větách, které jsou použity jako vstupní proměnné metod strojového učení. Výstupní proměnnou je odhad skóre spolehlivosti. Je zde předveden způsob, jakým byly využity implementace metod strojového učení v softwaru R. Metody byly testovány na nahrávkách českého rádia a televize. Výsledky jednotlivých metod jsou porovnány pomocí křivek ROC, směrodatné chyby detekce a možnosti redukce WER v rozpoznaných větách. Je připojen rovněž popis programu, který je součástí práce. Na závěr jsou shrnuty vlastnosti slova, které se osvědčily jako účinné atributy při detekci chyb.
Functional Arabic Morphology: Formal System and Implementation
Smrž, Otakar ; Vidová Hladká, Barbora (vedoucí práce) ; Hajič, Jan (oponent) ; Habash, Nizar Y. (oponent)
Functional Arabic Morphology is a formulation of the Arabic inflectional system seeking the working interface between morphology and syntax. ElixirFM is its high-level implementation that reuses and extends the Functional Morphology library for Haskell. Inflection and derivation are modeled in terms of paradigms, grammatical categories, lexemes and word classes. The computation of analysis or generation is conceptually distinguished from the general-purpose linguistic model. The lexicon of ElixirFM is designed with respect to abstraction, yet is no more complicated than printed dictionaries. It is derived from the open-source Buckwalter lexicon and is enhanced with information sourcing from the syntactic annotations of the Prague Arabic Dependency Treebank. MorphoTrees is the idea of building effective and intuitive hierarchies over the information provided by computational morphological systems. MorphoTrees are implemented for Arabic as an extension to the TrEd annotation environment based on Perl. Encode Arabic libraries for Haskell and Perl serve for processing the non-trivial and multi-purpose ArabTEX notation that encodes Arabic orthographies and phonetic transcriptions in parallel.
Popularita osob automaticky
Hajič, Jan ; Bojar, Ondřej (vedoucí práce) ; Popel, Martin (oponent)
Možnost automaticky sledovat popularitu osob v~novinách by jistě uvítaly nejen tyto osoby samotné. Počítačové zpracovávání subjektivity je sice rychle se rozvíjející podobor komputační lingvistiky, v~češtině ovšem vůbec pro analýzu subjektivity a polarity v publicistice neexistují data. Začali jsme tedy s~tvorbou ručně anotovaného korpusu polarity z~českých publicistických textů, které se ovšem pro takové zpracování ukázaly jako krajně nevhodné. Dále jsme navrhli klasifikátor založený na statistických metodách, který by měl na základě tohoto korpusu popularitu sledovat, a otestovali jsme ho na korpusu recenzí bílého zboží a orientačně na zárodku našeho korpusu vět z~novinových článků. Jako model jsme použili automaticky extrahovaný unigramový slovník, tři příbuzné metody pro zjišťování polárních lemmat a množství filtrů pro selekci relevantních lemmat. Na recenzích bílého zboží jsme dosáhli výsledků srovnatelných se světovým výzkumem už se základním modelem, naopak u českých publicistických textů vidíme kvůli jejich charakteru možný příslib až u více lingvisticky orientovaných metod.
Návrh souboru pravidel pro analýzu anafor v českém jazyce
Nguy, Giang Linh ; Hajič, Jan (vedoucí práce) ; Hajičová, Eva (oponent)
S rostoucí důležitostí počítačového zpracování přirozeného jazyka narůstá i množství výzkumů na téma automatické analýzy anafory. Příspěvkem k výzkumu této problematiky je rovněž naše diplomová práce, jejímž cílem je vytvořit soubor pravidel pro analýzu anafory v českém jazyce. Vytvořený soubor pravidel obsahuje jak ručně psaná pravidla, tak i pravidla vznikající pomocí systému strojového učení C4.5. K trénování a testování pravidel byla použita anotovaná data z Pražského závislostního korpusu, ve kterém je zachycena zájmenná anafora, kontrola, reciprocita a závislostní vztah doplňků. Právě těmto druhům anafory je věnována naše práce. Vyhodnocení pravidel je provedeno standardními metodami pro hodnocení úplnosti a přesnosti.
Analytical tools for Gregorian chant
Szabová, Kristína ; Hajič, Jan (vedoucí práce) ; Pecina, Pavel (oponent)
Jedným z najzaujímavejších problémov týkajúcich sa gregoriánskeho chorálu je jeho vývoj naprieč storočiami. Objavovanie príbuzných a, naopak, nepríbuzných spevov je nevyhnutným krokom pri riešení tohto problému, po odbornom výbere súboru spevov na porovnanie. Pri tomto kroku môžu pomôcť výpočetné metódy, keďže si vyžaduje zarov- nanie veľkého množstva spevov. Hoci existujú rozsiahle databázy digitalizovaných spevov, v digitálnej muzikológii chýba softvér potrebný na vykonanie tohto kroku. Výsledkom tejto práce je softvérový nástroj, ktorý môže pomôcť pri objavovaní príbuzných spevov pomocou algoritmov pre viacnásobné zarovnanie sekvencií (MSA), čo sú metódy pre- vzaté z bioinformatiky. Umožňuje výskumníkom zarovnať ľubovoľné súbory príbuzných (a nepríbuzných) spevov, a tak odhaliť zhluky príbuzných melódií. Okrem toho uľahčuje objavovanie kontrafaktov a transpozícií. Napriek tomu má nástroj určité obmedzenia: spúšťa sa lokálne a niektoré jeho interaktívne funkcie sa pri spracovaní stoviek údajov stávajú pomalými. Ďalší vývoj je plánovaný v rámci prebiehajúcej spolupráce s výskum- níkmi v oblasti digitálnej muzikológie z Akadémie vied Českej republiky a Filozofickej fakulty Univerzity Karlovej. 1
Zpracování češtiny s využitím kontextualizované reprezentace
Vysušilová, Petra ; Straka, Milan (vedoucí práce) ; Hajič, Jan (oponent)
S rostoucím objemem dat, zejména nestrukturovaného textu, roste důleži- tost zpracování přirozeného jazyka. Nejmodernějšími technologiemi posledních let jsou neuronové sítě. Tato práce aplikuje nejúspěšnější metody, jmenovitě Bi- directional Encoders Representations from Transformers (BERT), na tři české úlohy ve zpracování přirozeného jazyka - lematizaci, morfologické značkování a analýzu sentimentu. Použili jsme BERTa s jednoduchou klasifikační hlavou na tři české dataset pro analýzu sentimentu: mall, facebook a csfd a dosáhli jsme state-of-the-art výsledků. Také jsme prozkoumaly několik možných postupů tré- nování pro úlohy značkování a lematizace a obdrželi jsme nové state-of-the-art výsledky pro Pražský závislostní korpus v obou úlohách pomocí fine-tunningu. Konkrétně jsme dosáhli přesnosti 98.57% pro značkování, 99.00% pro lemati- zaci a 98.19% pro společné ohodnocení. Nejlepší modely pro všechny úlohy jsou veřejně dostupné. 1
Lexical Association Measures Collocation Extraction
Pecina, Pavel ; Hajič, Jan (vedoucí práce)
Lexical Association Measures:Collocation Extraction Pavel Pecina Abstract of Doctoral Thesis This thesis is devoted to an empirical study of lexical association measures and their application for collocation extraction. We focus on two-word (bigram) collocations only. We compiled a comprehensive inventory of 82 lexical association measures and present their empirical evaluation on four reference data sets: dependency bigrams from the manually annotated Prague Dependency Treebank, surface bigrams from the same source, instances of the previous from the Czech National Corpus provided with automatically assigned lemmas and part~of-speech tags, and distance verb-noun bigrams from the automatically part-of-speech tagged Swedish Parole Corpus. Collocation candidates in the reference data sets were manually annotated and identified as collocations and non-collocations. The evaluation scheme is based on measuring the quality of ranking collocation candidates according to their chance to form collocations. The methods are compared by precision-recall curves and mean average precision scores adopted from the field of information retrieval. Tests of statistical significance were also performed. Further, we study the possibility of combining lexical association measures and present empirical results of several...
Pojmenované entity a ontologie metodami hlubokého učení
Rafaj, Filip ; Hajič, Jan (vedoucí práce) ; Žabokrtský, Zdeněk (oponent)
V této diplomové práci popisujeme metodu pro propojování pojmenovaných entit a ontologické databáze. S použítím hlubokých neuronových sítí a kontextualizovaných embedingů BERT jsme vytořili model, který společně provádí rozpoznávání a disambiguování pojmenovaných entit. Vstupem do systému je text a výstupem je Wikipedia identifikátor pro každou nalezenou entitu. Kontextualizované embedingy byly získány pomocí předtrénovaného modelu BERT bez jeho dalších úprav (ne fine-tuning). Experimentovali jsme s komponentami našeho modelu a také s různými variantami BERT embedingů. Dále jsme vyzkoušeli různé způsoby použití kontextualizovaných embedingů. Náš model byl vyhodnocen pomocí obvyklých metrik a překonává výsledky dosavadně standardních prací, které nepoužívají předtrénované kontextualizované modely. Naše výsledky jsou srovnatelné s výsledky sočasných nejmodernějších systémů.

Národní úložiště šedé literatury : Nalezeno 70 záznamů.   začátekpředchozí21 - 30dalšíkonec  přejít na záznam:
Viz též: podobná jména autorů
2 Hajič, Jakub
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.