Název:
Evoluce genderových forem a zaujatosti ve vícejazyčných korpusech
Překlad názvu:
Evolution of Gender Forms and Bias in Multilingual Corpora
Autoři:
Jurášová, Daniela ; Limisiewicz, Tomasz (vedoucí práce) ; Libovický, Jindřich (oponent) Typ dokumentu: Diplomové práce
Rok:
2024
Jazyk:
eng
Abstrakt: [eng][cze] Although state-of-the-art machine translation models achieve high translation quality, they often exhibit bias. The imbalance of gender forms in the training data was identified as the key source of gender bias. The aim of this work is to study the evolution of gender forms in the data and subsequently mitigate the gender bias of machine translation models. We focus on languages with morphological gender (Czech, German, Spanish and Polish). We thoroughly analyze the development of the frequency of gendered occupations in the data over time and report a steady but slow trend in the increased frequency of female occupations. We then curate the available natural data based on temporal and topic analysis to obtain a gender-balanced portion, and perform experiments with fine- tuning on such data. We report a reduction in the gender bias of the models and increased accuracy of translating to the correct gender with a slight decrease in translation quality. This confirms the benefit of debiasing techniques based on fine-tuning models on balanced data. We contribute a novel method for obtaining gender-balanced data from available natural data and emphasize the significant presence of stereotypes in the data and the need to minimize them.Hoci najmodernejšie modely strojového prekladu dosahujú vysokú kvalitu prekladu, často vykazujú zaujatosť. Nevyváženosť genderových foriem v trénovacích dátach bola identifikovaná ako kľúčový zdroj rodovej zaujatosti. Cieľom tejto práce je študovať vývoj genderových foriem v dátach a následne zmierniť rodovú zaujatosť modelov strojového prekladu. Zameriavame sa na jazyky s morfologickým rodom (čeština, nemčina, španiel- čina a poľština). Dôkladne analyzujeme vývoj frekvencie rodovo špecifických povolaní v dátach v čase a pozorujeme stabilný, ale pomalý trend vo zvýšenej frekvencii ženských foriem povolaní. Následne spracovávame dostupné prirodzené dáta na základe časovej a tematickej analýzy, aby sme získali rodovo vyváženú časť, a vykonávame experimenty s dolaďovaním modelov na takýchto dátach. Vo výsledkoch uvádzame zníženie rodovej zaujatosti modelov a zvýšenú presnosť prekladu do správneho rodu s miernym pokle- som kvality prekladu. To potvrdzuje prínos techník znižovania zaujatosti založených na dolaďovaní modelov na vyvážených dátach. Prispievame novou metódou na získavanie ro- dovo vyvážených dát z dostupných prirodzených dát a zdôrazňujeme výraznú prítomnosť stereotypov v dátach a potrebu ich minimalizovať.
Klíčová slova:
Rodová zaujatosť|NLP|Viacjazyčnosť|Neurónové siete|Strojový preklad; Gender Bias|NLP|Multilinguality|Neural Networks|Machine Translation