Charles Explorer logo
🇨🇿

Předtrénování bez dohledu pro neuronový strojový překlad s využitím elastické konsolidace vah

Publikace na Matematicko-fyzikální fakulta |
2019

Abstrakt

Tato práce představuje náš probíhající výzkum předtrénování bez dohledu v oblasti neuronového strojového překladu (NMT). Naše metoda inicializuje váhy enkodéru a dekodéru pomocí dvou jazykových modelů, které jsou trénovány na jednojazyčných datech.

Celý model pak dolaďujeme na paralelních datech s pomocí elastické konsolidace vah (EWC), abychom zabránili zapomenutí původní úlohy jazykového modelování. Srovnáváme regularizaci EWC s předchozí prací, která se zaměřuje na regularizaci s pomocí optimalizačních cílů jazykového modelování.

Pozitivním výsledkem je, že použitím EWC s dekodérem dosáhneme podobných hodnot BLEU jako předchozí práce. Model však konverguje 2-3krát rychleji a nevyžaduje původní jednojazyčná data během dolaďování.

Oproti tomu je EWC regularizace méně účinná, pokud spolu původní a navazující úloha úzce nesouvisí. Ukazujeme, že inicializace obousměrného NMT enkodéru pomocí jednosměrného jazykového modelu a nucení modelu zapamatovat si původní úlohu modelování jazyka zleva doprava omezu