Národní úložiště šedé literatury Nalezeno 32 záznamů.  předchozí11 - 20dalšíkonec  přejít na záznam: Hledání trvalo 0.01 vteřin. 
Low-resource Text Classification
Szabó, Adam ; Straka, Milan (vedoucí práce) ; Popel, Martin (oponent)
Cílem práce je vyhodnotit klasifikaci českého textu s malým množstvím trénovacích dat. Používáme tři datasety, z nichž dva jsou veřejně dostupné a jeden je vytvořen částečně námi. Základ tohoto datasetu tvoří smlouvy, které nám poskytla webová plat- forma Hlídač Státu. Většina dat je klasifikovaná automaticky a jen malá část ručně. Jeho charakteristickým znakem je, že obsahuje dlouhé smlouvy v českém jazyce. S navrženým modelem dosahujeme na veřejně dostupných datasetech velmi dobrých výsledků, což potvrzuje dostatečný výkon našeho modelu. Navíc jsme na těchto veřejně dostupných datasetech provedli experimentální měření zašuměných dat a různého množství dat potřeb- ných k natrénování modelu. Na datasetu smluv jsme se zaměřili na výběr správné části z jednotlivých smluv a zkoumali jsme, pomocí které části můžeme dosáhnout nejlepší výsledků. Zjistili jsme, že u datasetu, který z důvodu automatického anotování obsahuje jistou část systematických chyb, je pro klasifikaci výhodnější použít kratší, ale relevant- nější část smlouvy, než vzít ze smlouvy delší text a spoléhat se, že BERT se z toho naučí správně. 1
Adaptive Handwritten Text Recognition
Procházka, Štěpán ; Straka, Milan (vedoucí práce) ; Straňák, Pavel (oponent)
Potřeba uchovávat a vyměňovat psané záznamy je klíčová pro lidskou společnost a k naplnění této potřeby v posledních tisíciletích ve velké míře slouží ručně psané písmo. Na rozdíl od úlohy rozpoznávání tištěného textu (OCR), která je v posledních desetiletích pozorně studována, úloha rozpoznávání ručně psaného textu (HTR) je, pro svou složi- tost, spíše opomíjena. Tato práce zkoumá možnosti uplatnění hlubokých konvolučních a rekurentních neuronových sítí v rozpoznání ručně psaného textu. Aby se předešlo obtížím způsobeným nedostatkem anotovaných dat, je navržen generátor syntetických dat vhod- ných pro předtrénováni použitých modelů, dále dotrénovaných metodou self-training v rámci široké sady experimentů. Navržené postupy jsou srovnány s dostupnými před- chozími výsledky, jak nad zavedenými datasety tak nad datasety nově vzniklými pro potřeby této práce. Toto srovnání potvrzuje vhodnost a úspěšnost navržených postupů. 1
Permutation-Invariant Semantic Parsing
Samuel, David ; Straka, Milan (vedoucí práce) ; Mareček, David (oponent)
V poslední době můžeme být svědky úspěšné aplikace metod hlubokého učení na parsování sémantických grafů pro přirozené jazyky. Všechny grafové parsery nicméně dosud byly, podle dostupné literatury, založeny na zbytečně silném předpokladu o fixním uspořádání vrcholů. Tato práce se naopak zabývá sémantickým parsováním, jehož učící algoritmus je invariantní vůči všem permutacím grafových vrcholů. Kromě toho je naším cílem vyvinout takový parser, který bude schopen univerzálně zpracovávat věty z různých jazyků a pro různé cílové sémantické formalismy. Abychom empiricky porovnali náš přístup s konkurenčními systémy, zúčastnili jsme se mezinárodní soutěže na CoNLL 2020: Cross-Framework Meaning Representation Parsing (MRP 2020). Ta porovnává soutěžní systémy na pěti formalismech (AMR, DRG, EDS, PTG a UCCA) a pro čtyři různé zdrojové jazyky (angličtina, čeština, němčina a standardní čínština). Náš parsovací systém, zkráceně nazvaný PERIN, byl jedním z vítězů této soutěže. I proto věříme, že náš přístup představuje slibný směr pro budoucí vývoj sémantických parserů. 1
Cooperative Multi-Agent Reinforcement Learning
Uhlík, Jan ; Pilát, Martin (vedoucí práce) ; Straka, Milan (oponent)
Zpětnovazební učení zažívá v posledních letech výrazný rozmach díky novým technikám založených na hlubokém učení. Zajímavou oblastí výzkumu, na kterou se v posledních letech zaměřila řada od- borných publikací, je využití zpětnovazebního učení v prostředích s více agenty. V této práci nej- prve formálně zavádíme Multi-Agentní Zpětnovazební Učení (MARL). Následně stručně popisujeme nejdůležitější a nejúspěšnější doposud známé algoritmy pro prostředí jak s jedním, tak s více agenty. Naši pozornost zaměřujeme zejména na skupinu algoritmů známých pod pojmem Actor-Critic s centra- lizovaným tréninkem a decentralizovaným vykonáváním akcí. Dále přinášíme nový algoritmus MATD3- FORK, jenž je kombinací dvou úspěšných algoritmů MATD3 a TD3-FORK. Na závěr provádíme obsáhlé srovnávací testy mezi jednotlivými algoritmy pomocí naší sjednocené implementace.
Kryptografie založená na kvadratických tělesech
Straka, Milan ; Stanovský, David (vedoucí práce)
Nazev prace: Kryptografie zalozena na kvadratickych telesech Autor: Milan Straka Katedra (ustav): Katedra algebry Vedouci diplomove prace: RNDr. David Stanovsky, Ph.D. E-mail vedouciho: David.Stanovsky@mff.cuni.cz Abstrakt: Iraaginarni kvadraticka telesa byla navrzena pro pouziti v asyrnetricke kryptografii Buchmannem a Williamsern jiz v roce 1988 a od te doby vznikly i dalsi kryptograficke protokoly. I kdyz tyto protokolynejsou tak efektivni jako podobna schemata s eliptickyrni kfivkami, mohou konku- rovat schematum zalozenyrn na RSA, a navic je jejich bezpecnost pova- zovana za nezavislou na bezpecnosti beznych kryptosystemu jako RSA, DSA aEGG. Tato prace shrnuje dosavadni vysledky v oboru kvadraticke kryptografie. Jednak popisuje algebraickou teorii nutnou pro zavedeni tndove grupy imaginarnich kvadratickych teles a dale studuje algoritmy operaci v tri- dove grupe, jak asymptoticky, tak prakticky efektivni. Take rozebira vhodna kryptograficka schemata a utoky na ne. Soucasti teto prace je knihovna, ktera popsane protokoly efektivne im- plementuje. Klicova slova: tridova grupa imaginarniho kvadratickeho telesa, diskretni logaritmus, asymetricka kryptografie, sifrovaci a podpisove schema Title: Qudratic field based cryptography Author: Milan Straka Department: Department ofAlgebra Supervisor: RNDr. David...
Entity Relationship Extraction
Šimečková, Zuzana ; Straka, Milan (vedoucí práce) ; Straňák, Pavel (oponent)
Úkol hledání sémantických vztahů mezi entitami na základě předloženého textu oz- načujeme jako extrakci vztahů (relationship extraction). Metodou distant supervision, která spočívá ve spojení báze znalostí (Wikidata) a korpusu (české Wikipedie), jsme vytvořili Český dataset pro extrakci vztahů (CERED). Použitou metodiku a problémy, na které jsme narazili, důkladně rozebíráme. CERED využíváme při tréninku neuronové sítě pro extrakci vztahů. Základem této sítě je BERT - lingvistický model předtrénovaný na velkém množství prostého textu. Navržený model vyhodnocujeme na anglických dat- ech (Semeval 2010 Task 8, TACRED) a porovnáváme jeho kvalitu s ostatními výsledky v oblasti extrakce vztahů. Přikládáme i výsledky naměřené na CEREDu. 1
Smoothness of Functions Learned by Neural Networks
Volhejn, Václav ; Musil, Tomáš (vedoucí práce) ; Straka, Milan (oponent)
Modern neural networks can easily fit their training set perfectly. Surprisingly, they generalize well despite being "overfit" in this way, defying the bias-variance trade-off. A prevalent explanation is that stochastic gradient descent has an implicit bias which leads it to learn functions that are simple, and these simple functions generalize well. However, the specifics of this implicit bias are not well understood. In this work, we explore the hypothesis that SGD is implicitly biased towards learning functions that are smooth. We propose several measures to formalize the intuitive notion of smoothness, and conduct experiments to determine whether these measures are implicitly being optimized for. We exclude the possibility that smoothness measures based on first derivatives (the gradient) are being implicitly optimized for. Measures based on second derivatives (the Hessian), on the other hand, show promising results. 1
Analysing and Optimizing GPU Kernels with Machine Learning
Šťavík, Petr ; Kruliš, Martin (vedoucí práce) ; Straka, Milan (oponent)
Grafické výpočetní jednotky (GPU) byly původně používány výhradně pro účely grafického vykreslování. To se změnilo zavedením technologií jako je CUDA, které umožnily použití grafických procesorů jako kterýchkoliv jiných výpočetních zařízení. Psaní efektivního programu pro GPU, nazývaného také GPU kernel, je však jednou z nejnáročnějších programovacích disciplín. Nejnovější výzkum v této oblasti naznačuje, že tyto problémy by mohly být potenciálně zmírněny metodami strojového učení. Jeden obzvláště úspěšný přístup je založen na využití rekurentních neuronových sítí (RNNs) nad různými reprezentacemi zdrojového kódu. V této práci představujeme dvě řešení založená na RNNs, která jsou schopna odvodit výkonové charakteristiky CUDA GPU kernelu přímo z jeho mezikódu, který se nazývá PTX. Použitelnost námi vyvinutých dvou metod vyhodnocujeme ve dvou optimalizačních úlohách pro GPU. V první úloze jsou naše metody schopny dosáhnout přesnosti okolo 82 %, což jsou výsledky, které jsou pouze o málo horší než kterých dosahují nedávné práce v této oblasti. Při druhé, náročnější úloze, kde je cílem správně klasifikovat jednu z deseti tříd, dosahují naše dvě metody přesnosti nad 50%. Tyto slibné výsledky naznačují velký potenciál dalšího výzkumu, který by se ubíral podobným směrem. 1
Mezijazykový přenos znalostí v úloze odpovídání na otázky
Macková, Kateřina ; Straka, Milan (vedoucí práce) ; Rosa, Rudolf (oponent)
Question answering je disciplínou informatiky v oblasti zpracování přirozeného jazyka a získávání informací. Cílem je vytvořit systém, který automaticky najde odpověď na určitou otázku v textu. V dnešní době existuje spousta modelů trénovaných na obrovských tréninkových datových souborech v angličtině. Tato práce se zaměřuje na budování podobných modelů v češtině bez českých tréninkových datasetů. Při této práci jsme použili SQuAD 1.1 a přeložili jej do češtiny pro vytvoření trénovacích a testovacích datových souborů. Pak jsme trénovali a testovali modely BiDirectional Attention Flow a BERT. Nejlepší získaný výsledek na českém datasetu je z modelu BERT trénovaného na češtině s přesnou shodou 60,48% a skóre F1 73,46%. Kromě toho jsme také natrénovali model BERT na anglickém datasetu a vyhodnotili jsme ho na českém testovacím datasetu bez překladu. Dosáhli jsme přesné shody 63,71% a skóre F1 74,78%, což je mimořádně dobré navzdory tomu, že model dosud neviděl žádné české question answering data. Takový model je velmi univerzální a poskytuje systém odpovědí na otázky v jakémkoli jazyce, pro který máme dostatek monolingválních textů.
Multilingual Learning using Syntactic Multi-Task Training
Kondratyuk, Daniel ; Straka, Milan (vedoucí práce) ; Mareček, David (oponent)
Recent research has shown promise in multilingual modeling, demonstrating how a single model is capable of learning tasks across several languages. However, typical recurrent neural models fail to scale beyond a small number of related lan- guages and can be quite detrimental if multiple distant languages are grouped together for training. This thesis introduces a simple method that does not have this scaling problem, producing a single multi-task model that predicts universal part-of-speech, morphological features, lemmas, and dependency trees simultane- ously for 124 Universal Dependencies treebanks across 75 languages. By leverag- ing the multilingual BERT model pretrained on 104 languages, we apply several modifications and fine-tune it on all available Universal Dependencies training data. The resulting model, we call UDify, can closely match or exceed state-of- the-art UPOS, UFeats, Lemmas, (and especially) UAS, and LAS scores, without requiring any recurrent or language-specific components. We evaluate UDify for multilingual learning, showing that low-resource languages benefit the most from cross-linguistic annotations. We also evaluate UDify for zero-shot learning, with results suggesting that multilingual training provides strong UD predictions even for languages that neither UDify nor BERT...

Národní úložiště šedé literatury : Nalezeno 32 záznamů.   předchozí11 - 20dalšíkonec  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.