Tento dokument představuje výsledky WMT20 Metriky sdíleného úkolu. Účastníci byli dotázáni k hodnocení výstupů překladatelských systémů soutěžících v WMT20 News Translation s automatickými metrikami. Deset výzkumů skupiny předložily 27 metrik, z nichž čtyři jsou "metriky" bez odkazů.
Kromě toho jsme vypočítali pět základních metrik, včetně SENT BLEU, BLEU, TER a CHR F us- SacreBLEU. Všechny metriky dobře korelují na úrovni systému, dokumentu a segmentu s oficiálním prekladem.
Předkládáme rozsáhlou analýzu vlivu referenčních překladů o metrické spolehlivosti, jak dobře automatické metriky hodnotí lidské preklady a také upozorňujeme na velké nesrovnalosti mezi metrickým a lidským skóre při hodnocení systémem MT. Nakonec zkoumame, zda můžeme použít automatické metriky k označení nesprávného hodnocení lidí.