Charles Explorer logo
🇨🇿

Hodnocení genderové koreference a zkreslení na WMT 2020

Publikace na Matematicko-fyzikální fakulta |
2020

Abstrakt

Genderová zaujatost ve strojovém překladu se může projevit při výběru genderových modulací na základě falešných genderových korelací. Například vždy překládat lékaře jako muže a sestry jako ženy.

To může být obzvláště škodlivé, protože modely se stávají populárnějšími a jsou zaváděny v rámci komerčních systémů. Naše práce představuje největší důkaz tohoto jevu ve více než 19 systémech předložených WMT ve čtyřech různých cílových jazycích: češtině, němčině, polštině a ruštině.K dosažení tohoto cíle používáme WinoMT, nedávnou automatickou testovací sadu, která zkoumá genderovou korektnost a zkreslení při překladu z angličtiny do jazyků s gramatickým pohlavím.

Bývalí pracovníci WinoMT se starají o dva nové jazyky testované ve WMT: polštinu a češtinu. Zjistili jsme, že všechny systémy důsledně používají nepravdivé korelace v datech spíše než smysluplné kontextové informace.