Národní úložiště šedé literatury Nalezeno 72 záznamů.  1 - 10dalšíkonec  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Cross-lingual transfer for the annotation of the SynSemClass ontology
Kašpárek, Petr ; Hajič, Jan (vedoucí práce) ; Štěpánek, Jan (oponent)
Tato práce porovnává dva přístupy k automatické předanotaci sémantických tříd sloves ve větách za účelem přidání nového jazyka do ontologie SynSemClass. Oba přístupy vycházejí z vícejazyčného deep learning klasifikačního modelu, který byl fine-tunovaný na již anotovaných anglických, českých a německých datech z ontologie. První, více tradiční, přístup je annotation projection. Používá paralelní korpus a výše zmíněný model k vytvoření predikcí na zdrojovém jazyce, který je již obsažen v ontologii, a tyto predikce projektuje na cílový jazyk pomocí automatického word alignmentu. Druhý přístup, zero-shot cross-lingual transfer, předpokládá, že vícejazykové schopnosti deep learning modelu jsou dostatečné a že můžeme vytvořit kvalitní predikce přímo na cílovém jazyce, i když model nebyl nikdy trénován pro danou úlohu na daném cílovém jazyce. Pro účely vyhodnocení ručně vytváříme a anotujeme malý korejský dataset za účelem otestování výsledků na jazyce, který se významně liší od angličtiny, češtiny a němčiny. Dospíváme k závěru, že zero-shot transfer vykazuje výrazně lepší výkon než annotation projection (p < 0,005), s hodnotami recall a precision 0,54, ve srovnání s 0,37 recall a 0,41...
Klasifikace autorství textu s neznámým autorem
Dolník, Karel ; Hajič, Jan (vedoucí práce) ; Mírovský, Jiří (oponent)
Přiřazení autorství pomocí statistických a výpočetních metod je hojně zkoumaným tématem literární vědy, ovšem jen málo prací se zabývá řešením problému, kdy klasifikovaný text nenapsal nikdo z autorů, které model viděl při trénování. Tato práce hledá způsob, jak takového neznámého autora detekovat v rámci stejných metod strojového učení, které se pro přiřazení autorství běžně používají, zejména klasifikátoru SVM. Zavádíme zde upravené klasifikační schéma One-versus-Rest-and-None které rozšiřuje schéma One-versus-Rest o trénování pomocí dat, která nepatří žádnému klasifikovanému autorovi. K tomu lze využít synteticky vytvořená data, nebo data od autorů, u kterých je jisté, že s klasifikovanými texty nejsou nijak spojeni. Ukázalo se, že právě při použití syntetických dat dojde k nejmenšímu snížení přesnosti oproti klasifikaci bez detekce neznámého autora.
Generování hudebních symbolů pomocí neuronových sítí
Havelka, Jonáš ; Pecina, Pavel (vedoucí práce) ; Hajič, Jan (oponent)
Vytvořili jsme více trénovacích dat pro optické rozpoznávání notových zápisů (OMR) pomocí vygenerování umělých obrázků hudebních symbolů. V návaznosti na Mashcimu a model, který nad ní J. Mayer natrénoval, jsme vzali Rebelo dataset (dataset obrázků hudebních symbolů), upravili ho metodami počítačového vidění a natrénovali na něm generativní neuronové sítě (především variační a adversariální autoenkodéry). Nahrazením části původních obrázků v Mashcimě obrázky vygenerova- nými těmito sítěmi jsme dosáhli lepšího výkonu modelu: Za mírné zhoršení na původním datasetu (CVC-MUSCIMA) jsme získali o dost lepší výsledky na datasetu PrIMuS. Taktéž jsme vytvořili velmi realistické umělé obrázky hudebních symbolů.
Unsupervised segmentation of Gregorian chant melodies for exploring chant modality
Lanz, Vojtěch ; Hajič, Jan (vedoucí práce) ; Mareček, David (oponent)
Gregoriánský chorál, jako ústní hudební tradice, byl prováděn zpěváky, kteří se museli naučit tisíce melodií. Každá melodie má několik vlastností, z nichž jednou je, do jakého modu v rámci modálního systému patří. Pro pochopení principů vyučování chorálových melodií může být užitečné rozložit melodie na menší jednotky a analyzovat jejich vz- tah k modalitě. V této práci porovnáváme modely neřízené segmentace založené na Bayesovských metodách s těmi, které využívají neuronové sítě. Jejich schopnost segmen- tovat chorální melodie měříme námi navrženými metrikami s cílem prozkoumat vlastnosti chorálů, jak v kontextu modality, tak v kontextu řešení problému se zapamatováním si všech zpěvů. K tomuto účelu máme k dispozici dva datasety: jeden s více než třinácti tisíci antifonami a druhý s více než sedmi tisíci responsorií. Zjistili jsme, že metoda založená na Pitman-Yor procesu je pro tuto konkrétní úlohu vhodnějším modelem než BERT, zejména námi navržený podmíněný model Pitman-Yor procesu, který segmentuje každý modus samostatně. Uvádíme několik jasných argumentů, že modalita úzce souvisí se segmentací melodií. Rovněž zpochybňujeme tvrzení, že přirozená segmentace podle slov nebo slabik chorálu je z hlediska klasifikace modů nejlepší (Cornelissen et al. [2020]), a poskytujeme doposud nejlepší výsledek v úloze...
Automatické generování Einsteinových hádanek v přirozeném jazyce
Hubená, Michaela ; Mareček, David (vedoucí práce) ; Hajič, Jan (oponent)
V rámci bakalářské práce byla vytvořena aplikace na příkazové řádce pro generování Einsteinových hádanek v přirozeném jazyce pomocí jazyko- vého modelu GPT-3 (generativní předtrénovaný Transformer třetí generace). Pro generování Einsteinových hádanek byla použita metoda few-shot, kdy je jazykovému modelu kromě zadání požadované úlohy předáno i několik vy- řešených příkladů této úlohy, pomocí kterých se má jazykový model úlohu naučit přímo při generování. Vytvořená aplikace umožňuje generovat Einstei- novy hádanky různých velikostí a obtížností na libovolné téma v českém či anglickém jazyce. Při generování je kladen důraz na kreativitu a originalitu Einsteinových hádanek.
Non-Autoregressive Neural Machine Translation
Helcl, Jindřich ; Hajič, Jan (vedoucí práce) ; Duh, Kevin (oponent) ; Popel, Martin (oponent)
V poslední době nabídl výzkum strojového překladu nové metody pro zrych- lení generování. Jedním z navrhovaných metod je takzvaný neautoregresivní neuronový strojový překlad. V klasických autoregresivních překladových sys- témech jsou výstupní pravděpodobnostní rozdělení modelována podmíněně na předchozích výstupech. Tato závislost umožňuje modelům sledovat stav překlá- dání a obvykle vede ke generování velmi plynulých textů. Autoregresivní postup je však ze své podstaty sekvenční a nelze jej paralelizovat. Neautoregresivní sys- témy modelují pravděpodobnosti jednotlivých cílových slov jako navzájem pod- míněně nezávislé, což znamená, že dekódování lze paralelizovat snadno. Nevýho- dou je ovšem nízká kvalita překladu ve srovnání s modely autoregresivními. Cíl výzkumu neautoregresivních metod strojového překladu je zlepšit kvalitu pře- kladu a zároveň uchovat vysokou rychlost dekódování. Naše práce předkládá re- šerši publikovaných metod a poukazuje na některé nedostatky plynoucí z obecně přijímané evaluační metodologie. Popisujeme experimenty s neautoregresivními modely trénovaných pomocí takzvané " connectionist temporal classification". Z našich výsledků plyne, že i když dosahujeme nejlepších výsledků mezi neautore- gresivními modely na datech z WMT z roku 2014, při porovnání s nejnovějšími...
Rozhraní v mluveném jazyce pro korpusové anotační nástroje
Přikryl, Leoš ; Hajič, Jan (vedoucí práce) ; Peterek, Nino (oponent)
Práce se zabývá návrhem a implementací rozhraní ke korpusovým anotačním nástrojům využívaným na ÚFALu (TrEd a jeho přídavné moduly) v přirozeném jazyce (mluvené řeči). Využity jsou již existující moduly pro rozpoznávání řeči ze ZČU Plzeň.
New Methods in Statistical Speech Recognition
Klusáček, David ; Hajič, Jan (vedoucí práce) ; Psutka, Josef (oponent) ; Černocký, Jan (oponent)
Název Práce: Nové metody ve statistickém rozpoznávání řeči Autor: David Klusáček Katedra: Ústav formální a aplikované lingvistiky, MFF UK Školitel: Prof. RNDr. Jan Hajič, Dr., ÚFAL. Abstrakt: Tato práce se pokouší identifikovat limity současných rozpoznávačů řeči a navrhnout metody jak jejich omezení překonat. Po historickém úvodu a popisu současného stavu je jako nejslabší článek řetězu prohlášen akustický front-end, zejména jeho činnost za zhoršených zvukových podmínek. Navrho- vané řešení, tzv. NUFIBA front-end, zahrnuje kompenzaci ozvěny, segmentaci zvuku na řečníka a pozadí, a průběžné sledování SNR, které v součinnosti s akustickým modelem zabraňuje lavinovému šíření chyb. Z důvodu nedostatku času jiz bohužel nedošlo k implementaci celého rozpoznávače řeči (i když ně- které části byly značně rozpracovány, například jazykový model založený na MMI třídách). Nové myšlenky tak byly vyzkoušeny pouze v jednodušším roz- poznávači fonémů. Klíčová slova: Automatické rozpoznávání řeči, souvislá řeč, NUFIBA front- end, Jazykový model, Sluchová dráha, MMI, Shlukování, Slepá dekonvoluce, Časové a frekvenční maskování, Potlačení ozvěny, Rozpoznávání fonémů.
Analytical and Tectogrammatical Analysis of a Natural Language
Klimeš, Václav ; Hajič, Jan (vedoucí práce) ; Pala, Karel (oponent) ; Ribarov, Kiril (oponent)
Tato práce předkládá nástroje pro analýzu na analytické a tektogramatické rovině, které jsou základem Pražského závislostního korpusu. Nástroje pro analytickou anotaci sestávají ze dvou parserů a nástroje přiřazujícího tzv. analytické funkce. Ačkoli úspěšnost parseru je daleko za úspěšností nejlepších parserů, oba mohou být chápány jako určitý přínos k parsingu, neboť jsou založeny na nových metodách. Nástroj přiřazujících analytické funkce dělá o 15 % chyb méně než nástroj, který se k tomuto účelu používal dosud. Nástroj vyvinutý pro tektogramatickou anotaci je jediný, který tuto úlohu nyní zvládá v takové šíři. Ačkoli jiné, specializované nástroje možná řeší některé její podúlohy lépe pro češtinu dělá můj nástroj o 29 %, resp. 47% méně chyb než kombinace existujících nástrojů určujících tektogramatickou strukturu, resp. hloubkové funktory, což je obojí jádrem tektogramatické roviny. Předkládané nástroje jsou navrženy tak, aby je bylo možno použít i pro jiné jazyky.

Národní úložiště šedé literatury : Nalezeno 72 záznamů.   1 - 10dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.