Národní úložiště šedé literatury Nalezeno 38 záznamů.  1 - 10dalšíkonec  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Improving Subword Tokenization Methods for Multilingual Models
Balhar, Jiří ; Limisiewicz, Tomasz (vedoucí práce) ; Popel, Martin (oponent)
V této práci jsou zkoumány rozdíly mezi metodami tokenizace pro víceja- zyčné neuronové modely (multilingual language models) a rovněž jejich vliv na kvalitu jazykového modelu. Je definována sada metrik, které jsou použity pro vyhodnocení kvality tokenizace: pomocí experimentů je demonstrováno, že užité metriky zachycují rozdíly mezi tokenizátory a korelují s výkonem vícejazyčných neuronových modelů. Některé práce věnované vícejazyčné tokenizaci uvádí, že standardní po- stup trénování tokenizátorů na vícejazyčném korpusu není vhodný pro více- jazyčné modely. Tato práce hledá důvod uvedených problémů. Jako možné příčiny jsou zkoumány velikost dat, implementace nebo velikost abecedy. V práci docházíme k závěru, že problém je pravděpodobně způsoben nevyváže- ností dat mezi jazyky a navrhujeme řešení v podobě rovnoměrného vzorko- vání trénovacích dat tokenizátoru. V diplomové práci jsou replikovány tři studie, které se zabývají vylepše- ním metod vícejazyčné tokenizace a jsou porovnány se standardním tréno- váním na rovnoměrných datech. Díky porovnání je zjištěno, že princip, který stojí za zlepšením u replikovaných metod, je stejný jako u rovnoměrného vzorkování. Výsledky diplomové práce poskytují hlubší vhled do problematiky toke- nizace pro vícejazyčné modely. Je navržena metodika a doporučení pro tré-...
Implementace softwarové klávesnice pro vstup textu do aplikace pro strojový překlad
Dvořák, Šimon ; Straňák, Pavel (vedoucí práce) ; Popel, Martin (oponent)
Velké množství aplikací pracuje s textovým vstupem od uživatelů. Překladové we- bové aplikace nejsou výjimkou. Textový vstup je na rozdíl od ostatních aplikací velice různorodý. Stát se může cokoli: různé znaky, klávesnicové layouty nebo uživatelé s malou nebo dokonce žádnou znalostí zdrojového jazyka. V této práci se snažíme vyvinout prostředky, které ulehčují textový vstup do webové aplikace překladače. Vyvinuli jsme konfigurovatelnou softwarovou klávesnici podporující několik funkcí. Mezi tyto funkce patří: definice více klávesnicových layoutů, přemapování fyzických kláves na klávesy aktivního layoutu, predikce dalšího slova a korekce fonetického zápisu. Softwarová klávesnice je snadno rozšiřitelná díky tomu, že používá jednoduchou architek- turu. 1
Mutual Relation of Machine Translation and Quality Estimation
Tryhubyshyn, Iryna ; Tamchyna, Aleš (vedoucí práce) ; Popel, Martin (oponent)
Odhad kvality strojového překladu předpovídá skóre kvality pro překlady vytvořené systémy strojového překladu na vstupních a výstupních segmentů. Systémy odhadu kval- ity jsou trénované pomoci učení s učitelem pomocí trénovacích dat, která obsahují překlad vytvořený jedním nebo více systémy strojového překladu. Výběr trénovacích dat pro stro- jový překlad má tedy vliv na to, jak dobře funguje systém odhadu kvality. Tato práce studuje vztah mezi systémy strojového překladu a systémy pro odhad kvality na úrovni vět. S využitím našich definic výkonu systému strojového překladu a výkonu systému odhadu kvality jsme provedli experimenty, které zahrnují trénovaní sys- témů strojového překladu a odhadu kvality různých výkonů. Prezentovali jsme výsledky hodnocení systémů odhadu kvality na testovacích sadách různých domén překládáných strojovými překládačí různé síly. Zjistili jsme, že (i) systémy hodnocení kvality vyškolené na překladech nižší kvality mají vyšší výkon, než systémy hodnocení kvality trénované na překladech vyšší kvality; (ii) hodnocení vysoce kvalitních systémů strojového překladu je výzvou pro systémy hodnocení kvality všech výkonů; (iii) vysoce výkonné systémy pro odhad kvality fungují lépe pro domény odlišné od trénovací, než systémy pro odhad kvality s nízkým výkonem 1
Non-Autoregressive Neural Machine Translation
Helcl, Jindřich ; Hajič, Jan (vedoucí práce) ; Duh, Kevin (oponent) ; Popel, Martin (oponent)
V poslední době nabídl výzkum strojového překladu nové metody pro zrych- lení generování. Jedním z navrhovaných metod je takzvaný neautoregresivní neuronový strojový překlad. V klasických autoregresivních překladových sys- témech jsou výstupní pravděpodobnostní rozdělení modelována podmíněně na předchozích výstupech. Tato závislost umožňuje modelům sledovat stav překlá- dání a obvykle vede ke generování velmi plynulých textů. Autoregresivní postup je však ze své podstaty sekvenční a nelze jej paralelizovat. Neautoregresivní sys- témy modelují pravděpodobnosti jednotlivých cílových slov jako navzájem pod- míněně nezávislé, což znamená, že dekódování lze paralelizovat snadno. Nevýho- dou je ovšem nízká kvalita překladu ve srovnání s modely autoregresivními. Cíl výzkumu neautoregresivních metod strojového překladu je zlepšit kvalitu pře- kladu a zároveň uchovat vysokou rychlost dekódování. Naše práce předkládá re- šerši publikovaných metod a poukazuje na některé nedostatky plynoucí z obecně přijímané evaluační metodologie. Popisujeme experimenty s neautoregresivními modely trénovaných pomocí takzvané " connectionist temporal classification". Z našich výsledků plyne, že i když dosahujeme nejlepších výsledků mezi neautore- gresivními modely na datech z WMT z roku 2014, při porovnání s nejnovějšími...
Machine Translation Using Syntactic Analysis
Popel, Martin ; Žabokrtský, Zdeněk (vedoucí práce) ; Ircing, Pavel (oponent) ; Čmejrek, Martin (oponent)
Strojový překlad s využitím syntaktické analýzy Martin Popel Tato práce popisuje zlepšení anglicko-českého a česko-anglického strojo- vého překladu pomocí metod, které lze použít i na další jazyky. V první části je popsáno několik zlepšení hloubkově-syntaktického překladače TectoMT, například rozšíření pro další jazyky a domény nebo implementace nového typu překladových modelů využívajících kontext a různé metody strojového učení. V druhé části je popsán neuronový překladač Transformer a jeho vy- lepšení. Po detailní analýze vlivu různých hyperparametrů, bylo optimali- zováno trénování systému tak, že dosáhl o 1.0 BLEU lepšího překladu než nejlepší systém v soutěži WMT2017. Využitím jednojazyčných dat cílového jazyka pomocí nového typu zpětného překladu bylo dosaženo dalšího zlep- šení kvality překladu o 2.8 BLEU. Využitím doménové adaptace zohledňující "překladštinu" (translationese) - tedy zohledněním toho, zda paralelní data jsou původně psána česky, nebo anglicky - byl výsledný systém vylepšen o dalších 0.2 BLEU. Tento výsledný neuronový překladač byl signifikantně lepší (p<0.05) než všechny ostatní anglicko-české a česko-anglické překladače v soutěži WMT2018. Podle výsledků ručního hodnocení byla kvalita tohoto strojového překladu dokonce vyšší než kvalita lidského referenčního překladu.
Možnosti zlepšení strojového překladu z angličtiny do češtiny
Popel, Martin ; Žabokrtský, Zdeněk (vedoucí práce) ; Bojar, Ondřej (oponent)
Tato diplomová práce popisuje strojový překlad z angličtiny do češtiny implementovaný v systému TectoMT. Překlad je založen na transferu přes tektogramatickou rovinu a využívá anotační schéma Pražského závislostního korpusu.Prvotním cílem práce je zlepšení kvality překladu za pomoci pravidlového přístupu i statistických metod. Nejprve je popsána ruční anotace překladových chyb ve vzorku 250 vět a následná analýza častých typů chyb a jejich příčn. Hlavní část textu pak popisuje návrh a provedení úprav, které vedly k vylepšení tří fází překladu: analýzy, transferu a syntézy. Nejvýraznější inovací je využití stromové modi kace skrytých Markovových řetězců (Hidden Markov Tree Models) ve fázi transferu. Dosažené zlepšení je kvantitativně vyhodnoceno pomocí metrik BLEU a NIST.
Nástroj pro porovnání a vyhodnocení strojového překladu
Klejch, Ondřej ; Popel, Martin (vedoucí práce) ; Tamchyna, Aleš (oponent)
Tato bakalářská práce se zabývá vývojem nástroje pro porovnávání a vyhod- nocování strojových překladů nazvaného MT-ComparEval. V tomto nástroji je možné porovnávat překlady na základě několika kritérií. Mezi ně patří automa- tické metriky kvality strojových překladů počítaných pro celé dokumenty nebo jednotlivé věty, porovnání kvality překladů jednotlivých vět pomocí zvýraznění potvrzených, zlepšujících a zhoršujících n-gramů nebo podle souhrnu nejvíce zlep- šujících a zhoršujících n-gramů v celém dokumentu. Při porovnávání dvou růz- ných překladů nástroj MT-ComparEval také vykresluje graf s absolutními rozdíly metrik počítaných pro jednotlivé věty a graf s hodnotami z párového bootstrap resamplingu.
Word prediction using language models
Koutný, Michal ; Popel, Martin (vedoucí práce) ; Novák, Michal (oponent)
Práce využívá ngramových jazykových modelů k usnadnění zadávání textů pomocí QWERTY klávesnice předvídáním psaných slov. Nejprve jsou představena existující obdobná řešení a položen teoretický základ práce. Následující analýza dělí problém do čtyř částí: trénování modelů, využití modelů k predikci, GUI komponenta a nástroje pro hodnocení. Byly použity jazyky Python a C++. Použité textové korpusy jsou z české a anglické Wikipedie (19 a 84 miliónů slov), k testům přizůsobení je též použit malý český korpus vzdělávacích textů. Pomocí definovaných metrik jsou ohodnocena různá nastavení. Nejlepší výsledek pro testovací data byl 0.44, resp. 0.55 úhozů na znak pro angličtinu, resp. češtinu.

Národní úložiště šedé literatury : Nalezeno 38 záznamů.   1 - 10dalšíkonec  přejít na záznam:
Viz též: podobná jména autorů
1 POPEL, Milan
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.