Charles Explorer logo
🇨🇿

Hluboké architektury pro neuronový strojový překlad

Publikace na Matematicko-fyzikální fakulta |
2017

Abstrakt

Bylo prokázáno, že zvyšující se hloubka modelu zlepšuje kvalitu neuronového strojového překladu. Přes mnoho návrhů různých variant arhitektur pro zvýšení hloubky modelu doposud nebyla provedena žádná důkladná srovnávací studie.

V této práci popisujeme a vyhodnocujeme několik stávajících přístupů k zavedení hloubky v neuronovém strojovém překladu. Navíc prozkoumáváme nové varianty architektur včetně hlubokých přechodových RNN a měníme, jak je hlubokém dekodéru použit mechanismus pozornosti ("attention").

Představujeme novou architekturu "BiDeep" RNN, která kombinuje hluboké přechodové RNN a skládané RNN. Hodnocení provádíme na anglicko-německém datovém souboru WMT pro překlady novinových článků s využitím stroje s jednou GPU pro trénování i inferenci.

Zjistili jsme, že několik našich navrhovaných architektur zlepšuje stávající přístupy z hlediska rychlosti a kvality překladu. Nejlepších výsledků jsme získali s BiDeep RNN kombinované hloubky 8, získáním průměrného zlepšení 1,5 BLEU nad silnou baseline.