Existující modely vícejazyčných větných vektorových reprezentací (embeddingů) vyžadují rozsáhlé paralelní datové zdroje, které nejsou k dispozici pro všechny jazyky. Navrhujeme novou metodu neřízeného učení pro získání vícejazyčných větných embeddingů pouze z jednojazyčných dat.
Nejprve pomocí neřízeného strojového překladu vytvoříme syntetický paralelní korpus a použijeme jej k doladění předtrénovaného cross-lingválního maskovaného jazykového modelu (XLM) a k odvození vícejazyčných větných reprezentací. Kvalita reprezentací je hodnocena na dvou úlohách dolování paralelních dat se zlepšením F1 skóre až o 22 bodů oproti standardnímu XLM.
Dále pozorujeme, že jeden syntetický dvojjazyčný korpus je schopen vylepšit výsledky i pro jiné jazykové páry.