Benchmark GEM: Generování přirozeného jazyka, jeho evaluace a metriky

Publikace na Matematicko-fyzikální fakulta |

2021

Abstrakt

Představujeme GEM, živý benchmark pro generování přirozeného jazyka (NLG), jeho evaluaci a metriky. Měření pokroku v oblasti NLG se opírá o neustále se vyvíjející ekosystém automatizovaných metrik, datových sad a standardů lidské evaluace.

Vzhledem k tomuto pohyblivému cíli se nové modely často stále vyhodnocují na odlišných anglocentrických korpusech s dobře zavedenými, ale chybnými metrikami. Tato nesouvislost ztěžuje identifikaci omezení současných modelů a příležitostí k pokroku.

GEM toto omezení řeší a poskytuje prostředí, v němž lze modely snadno aplikovat na široký soubor úloh a v němž lze testovat evaluační strategie. Pravidelné aktualizace benchmarku pomohou výzkumu NLG stát se více mnohojazyčným a rozvíjet úlohu spolu s modely.

Tento článek slouží jako popis dat pro sdílenou úlohu 2021 na souvisejícím workshopu GEM.

Klíčová slova

benchmark generování přirozeného jazyka jeho evaluace metriky