Generování klíčových slov: Náročná sumarizace textu

Publikace na Matematicko-fyzikální fakulta |

2019

Abstrakt

Klíčová slova, která svým vědeckým článkům přiřadili jejich autoři jsou nepostradatelná pro rozpoznání obsahu a témat dané článku. Většina řízených i neřízených metod generování klíčových slov není schopna přiřazovat termíny, které to dobře vystihují, ale nevyskytují se v textu.

V tomto příspěvku zkoumáme možnost klíčových slov coby shrnutím názvu práce a abstraktu. Nejdříve sesbíráme, zpracujme a vydáme velkou sadu metadat vědeckých článků čítajících 2,2 milionu záznamů.

Pak vyzkoušíme populární neurální architektury pro sumarizaci textů. Na rozdíl od pokročilých metod hlubokého učení, velkých objemů dat a mnoha dní výpočtů naše systematické vyhodnocování na čtyřech testovacích sadách dat ukázalo, že zkoumané metody sumarizace textu nemohou vytvořit lepší klíčová slova než jednoduché neřízené či řízené metody.

Klíčová slova

generování klíčových slov náročná sumarizace textu