Národní úložiště šedé literatury Nalezeno 17 záznamů.  předchozí11 - 17  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Využití větné struktury v neuronovém strojovém překladu
Pham, Thuong-Hai ; Bojar, Ondřej (vedoucí práce) ; Helcl, Jindřich (oponent)
Neural machine translation has been lately established as the new state of the art in machine translation, especially with the Transformer model. This model emphasized the importance of self-attention mechanism and sug- gested that it could capture some linguistic phenomena. However, this claim has not been examined thoroughly, so we propose two main groups of meth- ods to examine the relation between these two. Our methods aim to im- prove the translation performance by directly manipulating the self-attention layer. The first group focuses on enriching the encoder with source-side syn- tax with tree-related position embeddings or our novel specialized attention heads. The second group is a joint translation and parsing model leveraging self-attention weight for the parsing task. It is clear from the results that enriching the Transformer with sentence structure can help. More impor- tantly, the Transformer model is in fact able to capture this type of linguistic information with guidance in the context of multi-task learning at nearly no increase in training costs. 1
Enriching Neural MT through Multi-Task Training
Macháček, Dominik ; Bojar, Ondřej (vedoucí práce) ; Helcl, Jindřich (oponent)
Transformer je nedávno objevený, rychlý a výkonný model pro neuronový strojový překlad. V této práci experimentujeme se sdíleným trénováním na více úlohách (tzv. multitasking) pro obohacování zdrojové strany Transformeru lingvistickou anotací, což mu poskytuje další zdroj informací, z nichž může lépe získat znalost jazyka a reálného světa. Zaměřujeme se na dva přístupy: základní model se všemi sdílenými komponentami, u nějž je multitasking implementován jednoduchou manipulací se vstupními daty, a model s více dekodéry. Testujeme sdílené modely pro strojový překlad a určování slovních druhů (POS tagging), závislostní rozbor větné syntaxe (dependency parsing) a rozpoznávání pojmenovaných entit jako sekundární úlohy. Evaluujeme je srovnáním se základním modelem pro strojový překlad a s modely obohacenými umělými, lingvisticky nerelevantními úlohami. Zaměřujeme se primárně na strojový překlad z němčiny do češtiny se standardní velikostí trénovacích dat. Přestože žádný z našich obohacených modelů signifikantně nepřekonal základní model, ukazujeme, že (i) sekundární lingvistické úlohy jsou při trénování strojového překladu užitečné; (ii) z pohledu množství dat použitých při tréninku se modely obohacené více úlohami učí rychleji; (iii) v podmínkách s omezenými zdroji multitasking signifikantně vylepší základní...
Using Neural Networks to Determine Semantic Similarity of Two Sentences
Hrinčár, Peter ; Kadlec, Rudolf (vedoucí práce) ; Helcl, Jindřich (oponent)
Ur enie stup a sémantickej ekvivalencie dvoch viet je dôleûité pre mnohé praktické aplikácie spracovania prirodzeného jazyka. Cie om je ur i po- dobnos viet na ökále od "vety nemajú ûiaden vzájomn˝ vz ah" aû po "vety sú v˝znamovo ekvivalentné". V práci sme skúmali pouûitie rôznych architektúr ne- urónov˝ch sietí pri rieöení tejto úlohy. Navrhli sme modely pouûívajúce rekurentné siete, ktoré spracujú sekvenciu textu do vektora fixnej dimenzie. alej sme sa za- oberali vhodnou reprezentáciou neznámych slov. Naöe experimenty ukázali, ûe jednoduché architektúry dosiahli lepöie v˝sledky na pouûitom datasete. Budúce rozöírenie práce vidíme v pouûití vä öieho po tu trénovacích dát. 1
Machine Translation of Spoken English into Czech
Cífka, Ondřej ; Bojar, Ondřej (vedoucí práce) ; Helcl, Jindřich (oponent)
Automatický překlad mluvené řeči z jednoho jazyka do druhého se v dnešní době stává žádaným nástrojem k překonání jazykové bariéry. Tato práce se věnuje strojovému překladu mluvené angličtiny do češtiny jakožto pomůcce pro zahraniční turisty. Nejprve jsme z volně dostupných součástí sestavili plně funkční překladový systém a s jeho pomocí nasbírali od uživatelů ukázkové vstupy. Poté jsme se zaměřili na dvě nejdůležitější součásti systému - automatické rozpoznání řeči (ASR) a strojový překlad (MT) - a pokusili se je nahradit vlastními modely, přizpůsobenými pro danou doménu. Nakonec jsme tato vylepšení vyhodnotili na nasbíraných datech. Powered by TCPDF (www.tcpdf.org)
Mining Parallel Corpora from the Web
Kúdela, Jakub ; Holubová, Irena (vedoucí práce) ; Helcl, Jindřich (oponent)
Názov: Rafinácia paralelných korpusov z webu Autor: Bc. Jakub Kúdela E-mailová adresa autora: jakub.kudela@gmail.com Katedra: Katedra Softwarového Inženýrství Vedúci práce: Doc. RNDr. Irena Holubová, Ph.D. E-mailová adresa vedúceho: holubova@ksi.mff.cuni.cz Konzultant práce: RNDr. Ondřej Bojar, Ph.D. E-mailová adresa konzultanta: bojar@ufal.mff.cuni.cz Abstrakt: Štatistický strojový preklad (SMT, statistical machine translation) je v súčasnosti jeden z najpopulárnejších prístupov ku strojovému prekladu. Tento prístup využíva štatistické modely, ktorých parametre sú získané z analýzy para- lelných korpusov potrebných pre tréning. Existencia paralelného korpusu je naj- d^oležitejšou prerekvizitou pre vytvorenie účinného SMT prekladača. Viaceré vlas- nosti tohto korpusu, ako napríklad objem a kvalita, ovplyvňujú výsledky prekladu do značnej miery. Web m^ožeme považovat' za neustále rastúci zdroj značného množstva paralelných dát, ktoré m^ožu byt' rafinované a zahrnuté do trénovacieho procesu, čím m^ožu zdokonalit' výsledky SMT prekladača. Prvá čast' práce suma- rizuje niektoré z rozšírených metód pre získavanie paralelného korpusu z webu. Väčšina z metód hl'adá páry paralelných webových stránok podl'a podobnosti ich...
Vícejazyčná databáze kolokací
Helcl, Jindřich ; Hajič, Jan (vedoucí práce) ; Mareček, David (oponent)
Kolokace jsou skupiny slov, které se v daném jazyce vyskytují častěji spolu, nežli odděleně. Patří mezi ně také spojení, která dávají několika nezávislým slovům nový význam. Tato práce se zabývá nalezením kolokací v objemných datech a vytvořením databáze sloužící k jejich vyhledávání. Pro nalezení kolokací v textu počítáme hodnotu Pointwise Mutual Information založenou na počtu výskytů jednotlivých skupin slov v korpusu. Slova s nejvyšší hodnotou PMI jsou kandidáty na vhodné kolokace. Vybrané kolokace jsou uložené do databáze ve formátu použitelném pro vyhledávání pomocí Apache Lucene. Součástí práce je k vytvořené databázi přidat webové rozhraní, které umožňuje rychlý a jednoduchý způsob pro vyhledávání kolokací. Pokud by tato služba byla dostatečně rychlá a kolokace kvalitní, mohli by ji používat překladatelé k nacházení vhodných ekvivalentů v cílovém jazyce. Také může být používána studenty cizího jazyka k rozšiřování slovní zásoby. Taková databáze bude tvořena nezávisle v několika jazycích, mezi nimiž bude minimálně Čeština a Angličtina. Powered by TCPDF (www.tcpdf.org)
Rozšiřitelný instant messenger s podporou sdíleného kreslení
Helcl, Jindřich ; Hnětynka, Petr (vedoucí práce) ; Keznikl, Jaroslav (oponent)
V předložené práci popisujeme program iNetPaint, nástroj pro komunikaci mezi dvěma a více uživateli. Tento program podporuje vytváření společného obrázku a je rozšiřitelný o uživatelem definované nové kreslící nástroje. Program je založen na protokolu XMPP, což umožnuje přímou podporu textové komunikace i s ostatními klienty postavenými na témže protokolu, jako jsou Jabber, Google Talk a další. Práce obsahuje uživatelskou a programátorskou dokumentaci, přehled o podobně zaměřených programech a rozdíly mezi nimi a programem iNetPaint. Dále je v práci popsána tvorba nových nástrojů, jejich definice a implementace.

Národní úložiště šedé literatury : Nalezeno 17 záznamů.   předchozí11 - 17  přejít na záznam:
Viz též: podobná jména autorů
1 Helcl, Jan
3 Helcl, Jaroslav
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.