V tomto článku studujeme abstraktiví sumarizaci videí bez doménového omezení. Na rozdíl od tradiční sumarizace zpravodajských textů není cílem "komprimovat" textové informace, ale spíše poskytnout plynulé textové shrnutí informací, které byly shromážděny z různých zdrojových modalit, v našem případě videozáznamů a audio přepisů (nebo textu).
Ukazujeme, jak vícezdrojový model sekvenčního učení s hierarchickým mechanismem pozorností dokáže integrovat informace z různých modalit do uceleného výstupu, porovnáváme různé modely trénované s různými modalitami a prezentuje pilotní experimenty na How2 korpusu instruktážních videí. Navrhujeme také novou hodnotící metriku (Conent F1) pro abstraktivn í sumarizaci, která měří spíše sémantickou adekvátnost než plynulost, kterou naopak zachcují tradiční metriky jako jako ROUGE a BLEU.