Poslední vývoj v učení neuronovými sítěmi výrazně zvýšilo kvalitu automaticky generovaných souhrnů a klíčových slov dokumentu s tím, že je třeba ještě větších trénovacích korpusů. V tomto příspěvku představujeme dvě velké datové sady pro sumarizaci textu (OAGSX) a generování klíčových slov bsahující 34 milionů, resp. 23 milionů záznamů.
Data byla získána ze sítě Open Academic Graph obsahující výzkumné profily a publikace. Pečlivě jsme zpracovávali každý záznam a také zkoušeli několik extraktivních a abstraktivních metod pro obě úlohy, abychom vytvořili základ pro další výzkum.
Dále jsme ukázali v ýkon těchto metod kontrolou jejich výstupu. Brzy bychom rdi užili modelování témat na dvou množinách, abychom vytvořili dvě podmnožiny článků ze specifičtějších disciplín.