Ukazujeme, že výběr jazyků pro předškolení ovlivňuje následný přenos mezi jazyky pro modely založené na BERT. Zkoumáme nulový výkon v vyvážených datových podmínkách, abychom zmírnili matoucí velikost dat, klasifikujeme jazyky pro předškolení, které zlepšují následný výkon, jako dárce a jazyky, které se zlepšují v nulovém výkonu, jako příjemce.
Vyvíjíme metodu kvadratické časové složitosti v počtu jazyků, abychom tyto vztahy odhadli, místo exponenciálního vyčerpávajícího výpočtu všech možných kombinací. Zjišťujeme, že naše metoda je účinná na různorodou sadu jazyků zahrnující různé jazykové vlastnosti a dva navazující úkoly.
Naše zjištění mohou informovat vývojáře rozsáhlých vícejazyčných jazykových modelů při výběru lepších konfigurací pro předškolení.