Bylo prokázáno, že zvyšující se hloubka modelu zlepšuje kvalitu neuronového strojového překladu. Přes mnoho návrhů různých variant arhitektur pro zvýšení hloubky modelu doposud nebyla provedena žádná důkladná srovnávací studie.
V této práci popisujeme a vyhodnocujeme několik stávajících přístupů k zavedení hloubky v neuronovém strojovém překladu. Navíc prozkoumáváme nové varianty architektur včetně hlubokých přechodových RNN a měníme, jak je hlubokém dekodéru použit mechanismus pozornosti ("attention").
Představujeme novou architekturu "BiDeep" RNN, která kombinuje hluboké přechodové RNN a skládané RNN. Hodnocení provádíme na anglicko-německém datovém souboru WMT pro překlady novinových článků s využitím stroje s jednou GPU pro trénování i inferenci.
Zjistili jsme, že několik našich navrhovaných architektur zlepšuje stávající přístupy z hlediska rychlosti a kvality překladu. Nejlepších výsledků jsme získali s BiDeep RNN kombinované hloubky 8, získáním průměrného zlepšení 1,5 BLEU nad silnou baseline.