MiRANews: Datová sada a benchmarky pro sumarizaci zpráv asistovanou více zdroji

Publikace na Matematicko-fyzikální fakulta |

2021

Abstrakt

Jedním z nejobtížnějších aspektů současné sumarizace zpráv z jednoho dokumentu je to, že souhrn často obsahuje "extrinsické halucinace", tj. fakta, která nejsou obsažena ve zdrojovém dokumentu a která jsou často odvozena prostřednictvím znalosti světa. To způsobuje, že se sumarizační systémy chovají spíše jako otevřené jazykové modely se sklonem k halucinacím faktů, které jsou chybné.

V tomto článku tento problém zmírňujeme pomocí doplňkových zdrojových dokumentů, které pomáhají při řešení úlohy. Představujeme novou datovou sadu MiRANews a srovnáváme stávající sumarizační modely.

Na rozdíl od vícedokumentové sumarizace, která se zabývá více událostmi z několika zdrojových dokumentů, se stále zaměřujeme na generování souhrnu pro jeden dokument. Pomocí analýzy dat ukazujeme, že na vině nejsou jen modely: více než 27 % faktů uvedených ve zlatých souhrnech MiRANews je lépe podloženo v pomocných dokumentech než v hlavních zdrojových článcích.

Analýza chyb vygenerovaných souhrnů z předtrénovaných modelů dot

Klíčová slova

miranews datová sada benchmarky sumarizaci zpráv asistovanou více zdroji