Neuronové systémy generování přirozeného jazyka jsou známy svými patologickými výstupy, tj. generováním textu, který nesouvisí se specifikovaným vstupem. V tomto článku ukazujeme vliv sémantického šumu na současné nejlepší neuronové generátory, které implementují různé mechanismy sémantické kontroly.
Zjistili jsme, že vyčištění trénovacích dat může zlepšit sémantickou přesnost až o 97% při zachování plynnosti výstupů. Dále jsme zjistili, že nejčastějším typem chyby je vynechání informace, ne přidaná halucinovaná informace.