Národní úložiště šedé literatury Nalezeno 2 záznamů.  Hledání trvalo 0.00 vteřin. 
Improving Subword Tokenization Methods for Multilingual Models
Balhar, Jiří ; Limisiewicz, Tomasz (vedoucí práce) ; Popel, Martin (oponent)
V této práci jsou zkoumány rozdíly mezi metodami tokenizace pro víceja- zyčné neuronové modely (multilingual language models) a rovněž jejich vliv na kvalitu jazykového modelu. Je definována sada metrik, které jsou použity pro vyhodnocení kvality tokenizace: pomocí experimentů je demonstrováno, že užité metriky zachycují rozdíly mezi tokenizátory a korelují s výkonem vícejazyčných neuronových modelů. Některé práce věnované vícejazyčné tokenizaci uvádí, že standardní po- stup trénování tokenizátorů na vícejazyčném korpusu není vhodný pro více- jazyčné modely. Tato práce hledá důvod uvedených problémů. Jako možné příčiny jsou zkoumány velikost dat, implementace nebo velikost abecedy. V práci docházíme k závěru, že problém je pravděpodobně způsoben nevyváže- ností dat mezi jazyky a navrhujeme řešení v podobě rovnoměrného vzorko- vání trénovacích dat tokenizátoru. V diplomové práci jsou replikovány tři studie, které se zabývají vylepše- ním metod vícejazyčné tokenizace a jsou porovnány se standardním tréno- váním na rovnoměrných datech. Díky porovnání je zjištěno, že princip, který stojí za zlepšením u replikovaných metod, je stejný jako u rovnoměrného vzorkování. Výsledky diplomové práce poskytují hlubší vhled do problematiky toke- nizace pro vícejazyčné modely. Je navržena metodika a doporučení pro tré-...
Understanding cross-lingual abilities in large multilingual language models
Del Valle Girón, José Jacobo ; Libovický, Jindřich (vedoucí práce) ; Limisiewicz, Tomasz (oponent)
Cross-lingual abilities have been evident in large multilingual language models over the past few years. However, understanding why and under what circumstances they work is not entirely clear. In this work, we work towards a better understanding of these aspects in a specific subset of multilingual models, namely modular multilingual models with cross-lingual transfer learning abilities. We try to quantify claims in Pfeiffer et al. [2022] regarding their proposed model, X-MOD, as it was tested in a very specific setting which may not align with common low-resource settings. Specifically, we evaluate how the following factors may affect downstream performance: the amount of available pre- training data; hyperparameters such as number of training steps, checkpoint selection criteria, available overlapping lexicon. With the help of our findings, we also aim to provide guidelines on how to best use X-MOD, especially from a low-resource perspective. 1

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.