Využití modelů řízených daty pro sumarizaci textu nebo podobné úlohy se v posledních letech stává velmi běžným. Zatímco většina studií hlásí pouze základní přesnost, není nic známo o schopnosti zmíněných modelů se zlepšit, jsou-li trénovány na větších datech.
V tomto příspěvku definujeme a navrhujeme tři metriky efektivity dat: efektivita úspěšnosti dat, časové nedostatečnosti dat a celkové účinnosti dat. Navrhujeme také jednoduché schema využívající těchto metod a využívající je pro ucelenější hodnocení populárních metod sumarizace textů a generování nadpisů.
Pro druhou z úloh zpracováváme a uvol%nujeme rozsáhlou kolekci 35 miliónů párů abstrakt-název vědeckých článků. Naše výsledky odhalují, že mezi tetovanými metodami je Transformer nejúčinnější pro obě úlohy.