Neřízené mnohojazyčné reprezentace vět pro dolování paralelních dat

Publikace na Matematicko-fyzikální fakulta |

2020

Abstrakt

Existující modely vícejazyčných větných vektorových reprezentací (embeddingů) vyžadují rozsáhlé paralelní datové zdroje, které nejsou k dispozici pro všechny jazyky. Navrhujeme novou metodu neřízeného učení pro získání vícejazyčných větných embeddingů pouze z jednojazyčných dat.

Nejprve pomocí neřízeného strojového překladu vytvoříme syntetický paralelní korpus a použijeme jej k doladění předtrénovaného cross-lingválního maskovaného jazykového modelu (XLM) a k odvození vícejazyčných větných reprezentací. Kvalita reprezentací je hodnocena na dvou úlohách dolování paralelních dat se zlepšením F1 skóre až o 22 bodů oproti standardnímu XLM.

Dále pozorujeme, že jeden syntetický dvojjazyčný korpus je schopen vylepšit výsledky i pro jiné jazykové páry.

Klíčová slova

neřízené mnohojazyčné reprezentace dolování paralelních