Statické a kontextové vícejazyčné embeddingy mají komplementární přednosti. Statické embeddingy, i když jsou méně expresivní než kontextové jazykové modely, se dají lépe párovat mezi jazyky.
V tomto článku kombinujeme přednosti statických a kontextových, čímž docílíme vyšší kvality vícejazyčných kontextových embedingů. Z modelu XLM-R extrahujeme statické embeddingy pro 40 jazyků, validujeme jejich kvalitu pomocí indukce dvojjazyčných slovníků a pak je zarovnáváme pomocí nástroje VecMap.
Výsledkem jsou vysoce kvalitní, vysoce vícejazyčné statické embeddingy. Poté aplikujeme nový přístup pokračujícího pre-training modelu XLM-R, kde využíváme tyto statické embeddingy pro lepší zarovnání reprezentačního prostoru XLM-R.
Náš postup dosazuje pozitivních výsledků pro sémanticky náročných úloh. Statické embeddingy a kód pokračujícího pre-training jsou veřejně dostupné.
Na rozdíl od většiny předchozí práce náš přístup pokračujícího pre-training nevyžaduje paralelní text.