Citlivost modelů hlubokého neuronového učení k šumu na vstupu je známý a v ýrazný problém. Při strojovém zpracování přirozeného jazyka se výkon modelu často zhoršuje při přirozeně se vyskytujícím šumu, například při překlepech a pravopisných chybách.
Aby se tomuto problém zabránilo, modely často využívají data s uměle vytvořenými chybami. Ovšem množství a typ takto generovaného šumu bylo dosud určováno libovolně.
My proto navrhujeme modelovat chyby statisticky z korpusů pro opravy gramatiky. Předkládáme pečlivou evaluaci několika současných nástrojů strojového zpracování textu co do robustnosti v několika jazycích a úlohách, včetně morfo-syntaktické analýzy, rozpoznávání pojmenovaných entit, neuronového strojového překladu, podmnožiny úloh v GLUE a porozumění textu.
Dále srovnáváme dva přístupy pro zamezení zhoršení výkonu: a) trénování modelů za použití dat se šumem zavedeným pomocí našeho modelu; a b) redukci vstupního šumu pomocí externího nástroje pro kontrolu gramatiky. Zdrojový kód je vydán na ad