Národní úložiště šedé literatury Nalezeno 4 záznamů.  Hledání trvalo 0.00 vteřin. 
Automatic inflection in Czech language
Sourada, Tomáš ; Rosa, Rudolf (vedoucí práce) ; Vidra, Jonáš (oponent)
Tato bakalářská práce se zaměřuje na automatické skloňování českých podstatných jmen, zejména slov, která nejsou zahrnuta ve slovníku (tzv. out- of-vocabulary, OOV) - skloňovánípředem neviděných slov. Automaticky jsme extrahovali rozsáhlý dataset vhodný pro trénování a vyhodnocení za OOV podmínek. Dále jsme manuálně vytvořili dataset vyskloňovaných reálných OOV slov - neologismů. Vyvinuli jsme tři různé systémy: retrográdní model založený na algoritmu k-nejbližších sousedů (kNN) a dva modely sequence- to-sequence (seq2seq) založené na LSTM a Transformeru. V porovnání se stávajícím skloňovacím systémem sklonuj.cz a standardními baseline systémy ze SIGMORPHON shared tasks jsme za OOV podmínek s naším seq2seq mo- delem dosáhli nejlepších výsledků. Dále jsme dosáhli state-of-the-art výsledků pro 6 ze 16 vývojových (development) jazyků zahrnutých v datech SIGMOR- PHON 2022 shared task, při vyhodnocení za OOV podmínek (feature over- lap condition) a při trénování na větším datasetu (large data condition). Na datasetu reálných OOV slov byly všechny neuronové modely překonány retrográdním modelem, který dosahuje výsledků srovnatelných s neneuro- novým SIGMORPHON baseline systémem. Představujeme a zveřejňujeme...
Automatická oprava chyb výstupů překladače CUBBITT
Švandelík, Vojtěch ; Popel, Martin (vedoucí práce) ; Vidra, Jonáš (oponent)
Tato práce se zabývá zpracováním výstupů česko-anglického a anglicko-českého překla- dače CUBBITT. Cílem práce bylo vyvinutí nástroje, který by byl schopen v přeložených větách hledat pomocí pravidlového systému chybně přeložené pasáže a tyto následně opra- vit. V práci se zaměřujeme na několik konkrétních jevů, jimiž jsou především oprava čísel s jednotkami, kterým se překladem změnil původní význam, a oprava oddělovačů tisíců a desetinných čísel, jež překladač někdy ignoruje. Kromě toho jsme se zabývali opravou vlastních jmen osob, která překladač někdy úplně změní. Pro každý z jevů jsme provedli analýzu četnosti a vzniku problému, navrhli způsob řešení a tento způsob jsme imple- mentovali ve vytvořeném balíčku v jazyce Python. Také jsme vytvořili webové rozhraní, kde lze balíček testovat. V práci jsme rovněž vyhodnotili zvolené řešení a navrhli další rozšíření. 1
Morphological segmentation of Czech Words
Vidra, Jonáš ; Žabokrtský, Zdeněk (vedoucí práce) ; Mareček, David (oponent)
V lingvistice se obvykle slova považují za složená z morfémů, což jsou dále neděli- telné jazykové jednotky nesoucí význam. Zadáním této práce je nalézt automatickou metodu dělení českých slov na morfémy, které by bylo možné přidat do DeriNetu, sítě derivačních vztahů mezi českými slovy. Vytvořili jsme dvě různé takové metody. První nalézá hranice morfémů na zá- kladě hledání rozdílů mezi slovem a jeho derivačním předkem, a tranzitivně mezi všemi slovy v derivačním hnízdě. Tato metoda explicitně modeluje hláskové a mor- fologické alternace a nalézá nejvhodnější hranice morfémů pomocí metody maximál- ní věrohodnosti. Ve srovnání s moderním systémem Morfessor FlatCat naše metoda přinejhorším mírně zaostává, ovšem v některých testech naopak dosahuje výsledků výrazně lepších. Druhou metodou je neuronová síť pro současné předpovídání morfologické seg- mentace a derivačních předků, trénovaná na datech získaných první metodou a na de- rivačních vztazích ze sítě DeriNet. S naší hypotézou, že tento způsob trénování dvou úloh naráz pomůže k dosažení lepších výsledků oproti trénování samotné segmenta- ce, jsou však ve shodě pouze některé provedené pokusy. Celkově dosahuje neuronová síť horších výsledků než první metoda, pravděpodobně kvůli trénování na datech ob- sahujících chyby, které se tím přidávají k chybám...
Extending the Lexical Network DeriNet
Vidra, Jonáš ; Žabokrtský, Zdeněk (vedoucí práce) ; Hlaváčová, Jaroslava (oponent)
DeriNet je databáze českých lexikálních derivátů - lexikální síť, ve které uzly odpovídají lemmatům vybraným z Českého národního korpusu a hrany derivačním vztahům mezi nimi (například práce → pracovat → vypracovat). Vybírání lemmat z korpusu s sebou nese dva hlavní problémy: chybovost a chybějící lemmata, která by mohla sloužit jako spojnice mezi dosud nespojenými komponentami slovní sítě. Proto je potřeba najít spolehlivější a bohatší zdroj lemmat. Cílem této práce je rozšířit slovní zásobu DeriNetu pomocí lemmat z českého morfologického slovníku MorfFlex CZ a opravit derivační pravidla, která s novými slovy produkují chyby. Chybovost je měřena porovnáváním vztahů v databázi s ručně anotovanými daty vytvořenými v rámci práce. Powered by TCPDF (www.tcpdf.org)

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.