Užitečnost jazykových anotací v překladu do neurálních strojů byla zřejmě prokázána v minulých pracích. Pokusy se však omezovaly na opakující se sekvenční architektury a relativně malé nastavení dat.
Zaměřujeme se na nejmodernější model Transformeru a používáme srovnatelně větší korporáty. Konkrétně se snažíme podporovat znalosti syntaxe na zdrojové straně pomocí víceúkolového učení buď pomocí jednoduchých technik manipulace s daty, nebo pomocí speciální modelové komponenty.
Konkrétně jednoho cvičíme Transformer se soustředí na vytvoření stromu závislosti na straně zdroje. Celkově naše výsledky zpochybňují užitečnost víceúkolových sestav s jazykovými informacemi.
Techniky manipulace s daty, doporučované v předchozích dílech, se v nastavení velkých dat ukazují jako neúčinné. Zacházení se sebepozorností jako se závislostmi se zdá mnohem slibnější: pomáhá při překladu a odhaluje, že model Transformer dokáže velmi snadno uchopit syntaktickou strukturu.
Důležitým, ale kuriózním výsledkem však je, že identi