Jedním z nejobtížnějších aspektů současné sumarizace zpráv z jednoho dokumentu je to, že souhrn často obsahuje "extrinsické halucinace", tj. fakta, která nejsou obsažena ve zdrojovém dokumentu a která jsou často odvozena prostřednictvím znalosti světa. To způsobuje, že se sumarizační systémy chovají spíše jako otevřené jazykové modely se sklonem k halucinacím faktů, které jsou chybné.
V tomto článku tento problém zmírňujeme pomocí doplňkových zdrojových dokumentů, které pomáhají při řešení úlohy. Představujeme novou datovou sadu MiRANews a srovnáváme stávající sumarizační modely.
Na rozdíl od vícedokumentové sumarizace, která se zabývá více událostmi z několika zdrojových dokumentů, se stále zaměřujeme na generování souhrnu pro jeden dokument. Pomocí analýzy dat ukazujeme, že na vině nejsou jen modely: více než 27 % faktů uvedených ve zlatých souhrnech MiRANews je lépe podloženo v pomocných dokumentech než v hlavních zdrojových článcích.
Analýza chyb vygenerovaných souhrnů z předtrénovaných modelů dot