V posledních letech se vzorec konzumace zpráv mění. Nejoblíbenější multimediální zpravodajské formáty jsou nyní multimodální - čtenáři je často prezentován nejen textový článek, ale také krátké, živé video.
Abychom upoutali pozornost čtenáře, jsou takové články založené na videu obvykle prezentovány jako krátké textové shrnutí spárované s miniaturou obrázku. V tomto článku představujeme MLASK (MultimodaL Article Summarization Kit) - nový datový soubor zpravodajských článků založených na videu. spárované s textovým shrnutím a úvodním obrázkem, vše získané automatickým procházením několika zpravodajských webů.
Ukazujeme, jak lze navrhovanou datovou sadu použít k modelování úlohy multimodální sumarizace pomocí trénování neurálního modelu založeného na transformátoru. Zkoumáme také účinky předtrénování, kdy použití generativních předtrénovaných jazykových modelů pomáhá zlepšit výkon modelu, ale (dodatečné) předtrénování jednoduššího úkolu sumarizace textu přináší ještě lepší výsledky.
Naše experimenty naznačují, že výhody předtréninku a použití dalších modalit ve vstupu nejsou ortogonální.