Dva obrovské korpusy titulů a klíčových slov z výzkumných článků

Publikace na Matematicko-fyzikální fakulta |

2020

Abstrakt

Poslední vývoj v učení neuronovými sítěmi výrazně zvýšilo kvalitu automaticky generovaných souhrnů a klíčových slov dokumentu s tím, že je třeba ještě větších trénovacích korpusů. V tomto příspěvku představujeme dvě velké datové sady pro sumarizaci textu (OAGSX) a generování klíčových slov bsahující 34 milionů, resp. 23 milionů záznamů.

Data byla získána ze sítě Open Academic Graph obsahující výzkumné profily a publikace. Pečlivě jsme zpracovávali každý záznam a také zkoušeli několik extraktivních a abstraktivních metod pro obě úlohy, abychom vytvořili základ pro další výzkum.

Dále jsme ukázali výkon těchto metod kontrolou jejich výstupu. Brzy bychom rdi užili modelování témat na dvou množinách, abychom vytvořili dvě podmnožiny článků ze specifičtějších disciplín.

Klíčová slova

obrovské korpusy titulů klíčových slov výzkumných článků