Tato práce s popisem systému podrobně popisuje přístup TEAM UFAL pro SummScreen, TVMegasite podúkol sdíleného úkolu CreativeSumm. Podúkol se zabývá vytvářením souhrnů pro dialogy z oper TV Soap.
Využili jsme BART na bázi předcvičeného modelu vyladěného na SamSum dialouge sumarizační datové sadě. Několik příkladů z AutoMin datové sady a datové sady poskytnuté organizátory bylo také vloženo do dat jako cíl učení na několik záběrů.
Dodatečná data byla ručně rozdělena na bloky na základě různých hranic v souhrnu a dialogovém souboru. Pro odvození volíme podobnou strategii jako špičkový tým na AutoMin 2021, kde jsou data rozdělena na bloky, buď na [SCENE_CHANGE] nebo přesahující předdefinovanou délku tokenu, aby se pro jeden příklad vešlo maximum tokenu možného v předcvičeném modelu.
Finální tréninková strategie byla zvolena na základě toho, jak přirozené odpovědi vypadaly, namísto toho, jak dobře model fungoval na automatizovaných vyhodnocovacích metrikách, jako je ROGUE.