Národní úložiště šedé literatury Nalezeno 3 záznamů.  Hledání trvalo 0.02 vteřin. 
Evolution of Gender Forms and Bias in Multilingual Corpora
Jurášová, Daniela ; Limisiewicz, Tomasz (vedoucí práce) ; Libovický, Jindřich (oponent)
Hoci najmodernejšie modely strojového prekladu dosahujú vysokú kvalitu prekladu, často vykazujú zaujatosť. Nevyváženosť genderových foriem v trénovacích dátach bola identifikovaná ako kľúčový zdroj rodovej zaujatosti. Cieľom tejto práce je študovať vývoj genderových foriem v dátach a následne zmierniť rodovú zaujatosť modelov strojového prekladu. Zameriavame sa na jazyky s morfologickým rodom (čeština, nemčina, španiel- čina a poľština). Dôkladne analyzujeme vývoj frekvencie rodovo špecifických povolaní v dátach v čase a pozorujeme stabilný, ale pomalý trend vo zvýšenej frekvencii ženských foriem povolaní. Následne spracovávame dostupné prirodzené dáta na základe časovej a tematickej analýzy, aby sme získali rodovo vyváženú časť, a vykonávame experimenty s dolaďovaním modelov na takýchto dátach. Vo výsledkoch uvádzame zníženie rodovej zaujatosti modelov a zvýšenú presnosť prekladu do správneho rodu s miernym pokle- som kvality prekladu. To potvrdzuje prínos techník znižovania zaujatosti založených na dolaďovaní modelov na vyvážených dátach. Prispievame novou metódou na získavanie ro- dovo vyvážených dát z dostupných prirodzených dát a zdôrazňujeme výraznú prítomnosť stereotypov v dátach a potrebu ich minimalizovať.
Improving Subword Tokenization Methods for Multilingual Models
Balhar, Jiří ; Limisiewicz, Tomasz (vedoucí práce) ; Popel, Martin (oponent)
V této práci jsou zkoumány rozdíly mezi metodami tokenizace pro víceja- zyčné neuronové modely (multilingual language models) a rovněž jejich vliv na kvalitu jazykového modelu. Je definována sada metrik, které jsou použity pro vyhodnocení kvality tokenizace: pomocí experimentů je demonstrováno, že užité metriky zachycují rozdíly mezi tokenizátory a korelují s výkonem vícejazyčných neuronových modelů. Některé práce věnované vícejazyčné tokenizaci uvádí, že standardní po- stup trénování tokenizátorů na vícejazyčném korpusu není vhodný pro více- jazyčné modely. Tato práce hledá důvod uvedených problémů. Jako možné příčiny jsou zkoumány velikost dat, implementace nebo velikost abecedy. V práci docházíme k závěru, že problém je pravděpodobně způsoben nevyváže- ností dat mezi jazyky a navrhujeme řešení v podobě rovnoměrného vzorko- vání trénovacích dat tokenizátoru. V diplomové práci jsou replikovány tři studie, které se zabývají vylepše- ním metod vícejazyčné tokenizace a jsou porovnány se standardním tréno- váním na rovnoměrných datech. Díky porovnání je zjištěno, že princip, který stojí za zlepšením u replikovaných metod, je stejný jako u rovnoměrného vzorkování. Výsledky diplomové práce poskytují hlubší vhled do problematiky toke- nizace pro vícejazyčné modely. Je navržena metodika a doporučení pro tré-...
Understanding cross-lingual abilities in large multilingual language models
Del Valle Girón, José Jacobo ; Libovický, Jindřich (vedoucí práce) ; Limisiewicz, Tomasz (oponent)
Cross-lingual abilities have been evident in large multilingual language models over the past few years. However, understanding why and under what circumstances they work is not entirely clear. In this work, we work towards a better understanding of these aspects in a specific subset of multilingual models, namely modular multilingual models with cross-lingual transfer learning abilities. We try to quantify claims in Pfeiffer et al. [2022] regarding their proposed model, X-MOD, as it was tested in a very specific setting which may not align with common low-resource settings. Specifically, we evaluate how the following factors may affect downstream performance: the amount of available pre- training data; hyperparameters such as number of training steps, checkpoint selection criteria, available overlapping lexicon. With the help of our findings, we also aim to provide guidelines on how to best use X-MOD, especially from a low-resource perspective. 1

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.