Sampling and Filtering of Neural Machine Translation Distillation Data

Publication at Faculty of Mathematics and Physics |

2021

Abstract

Ve většině scénářů destilace nebo krádeže neuronových strojových překladů se k výcviku nového modelu (studenta) používá hypotéza s nejvyšším bodovým ohodnocením cílového modelu (učitele). Jsou-li k dispozici i referenční překlady, pak lze lepší hypotézy (s ohledem na odkazy) přetížit a špatné hypotézy buď odstranit, nebo podtrhnout.

Tento dokument zkoumá prostředí metody odběru vzorků (prořezávání, hypotetické nadměrné vzorkování a nedostatečné vzorkování, deduplikace a jejich kombinace) s anglickými až českými a anglickými až německými modely MT pomocí standardních metrik hodnocení MT. Ukazujeme, že pečlivé nadměrné vzorkování a kombinace s původními údaji vede k lepším výsledkům ve srovnání se školením pouze o původních nebo syntetizovaných údajích nebo jejich přímé kombinaci.

Keywords

sampling filtering neural machine translation distillation data