Charles Explorer logo
🇨🇿

Generování klíčových slov: Náročná sumarizace textu

Publikace na Matematicko-fyzikální fakulta |
2019

Abstrakt

Klíčová slova, která svým vědeckým článkům přiřadili jejich autoři jsou nepostradatelná pro rozpoznání obsahu a témat dané článku. Většina řízených i neřízených metod generování klíčových slov není schopna přiřazovat termíny, které to dobře vystihují, ale nevyskytují se v textu.

V tomto příspěvku zkoumáme možnost klíčových slov coby shrnutím názvu práce a abstraktu. Nejdříve sesbíráme, zpracujme a vydáme velkou sadu metadat vědeckých článků čítajících 2,2 milionu záznamů.

Pak vyzkoušíme populární neurální architektury pro sumarizaci textů. Na rozdíl od pokročilých metod hlubokého učení, velkých objemů dat a mnoha dní výpočtů naše systematické vyhodnocování na čtyřech testovacích sadách dat ukázalo, že zkoumané metody sumarizace textu nemohou vytvořit lepší klíčová slova než jednoduché neřízené či řízené metody.