Multimodální a abstraktní sumarizace videí bez doménového omezení vyžaduje shrnutí obsahu celého videa v několika krátkých větách a zároveň sloučení informací z více modalit, v našem případě videa a zvuku (nebo textu). Na rozdíl od obvyklé sumarizace žurnalistických textů není cílem pouze "komprimovat" textové informace, ale poskytnout plynulé textové shrnutí informací, které byly shromážděny z různých vstupních modalit.
V tomto příspěvku představujeme úlohu abstraktní sumarizace pro videa bez doménového omezení, ukazujeme, jak může model sekvenčního učení s hierarchickým mechanismem pozorností integrovat informace z různých modalit do uceleného výstupu. Dále prezentujeme pilotní experimenty na How2 korpusu instruktážních videí.
Představujeme také novou evaluační metriku pro sumarizaci nazvanou Content F1, která měří spíše sémantickou přiměřenost než plynulost abstraktů, narozdíl od metrik jako jsou ROUGE a BLEU.