Generování textu z dat pomocí postupných úprav textu

Publikace na Matematicko-fyzikální fakulta |

2020

Abstrakt

Představujeme nový přístup pro generování textu z dat založený na postupných úpravách textu. Náš přístup maximalizuje úplnost a sémantickou přesnost výstupního textu a zároveň využívá současných předtrénovaných modelů pro editaci textu (LaserTagger) a modelování jazyka (GPT-2) pro zlepšení plynulosti textu.

Za tímto účelem nejprve převádíme data na text pomocí triviální lexikalizace zvlášť pro každou položku a následně výsledný text postupně vylepšujeme neuronovým modelem natrénovaným na spojování vět. Náš přístup vyhodnocujeme na dvou používaných datových sadách (WebNLG, Cleaned E2E) a analyzujeme jeho přínosy a úskalí.

Dále ukazujeme, že náš přístup umožňuje generování textu z dat bez dat z konkrétní domény za pomocí obecné datové sady pro spojování vět.

Klíčová slova

generování textu pomocí postupných úprav textu