Charles Explorer logo
🇨🇿

Kombinace statický a kontextuálních embedingů

Publikace na Matematicko-fyzikální fakulta |
2022

Abstrakt

Statické a kontextové vícejazyčné embeddingy mají komplementární přednosti. Statické embeddingy, i když jsou méně expresivní než kontextové jazykové modely, se dají lépe párovat mezi jazyky.

V tomto článku kombinujeme přednosti statických a kontextových, čímž docílíme vyšší kvality vícejazyčných kontextových embedingů. Z modelu XLM-R extrahujeme statické embeddingy pro 40 jazyků, validujeme jejich kvalitu pomocí indukce dvojjazyčných slovníků a pak je zarovnáváme pomocí nástroje VecMap.

Výsledkem jsou vysoce kvalitní, vysoce vícejazyčné statické embeddingy. Poté aplikujeme nový přístup pokračujícího pre-training modelu XLM-R, kde využíváme tyto statické embeddingy pro lepší zarovnání reprezentačního prostoru XLM-R.

Náš postup dosazuje pozitivních výsledků pro sémanticky náročných úloh. Statické embeddingy a kód pokračujícího pre-training jsou veřejně dostupné.

Na rozdíl od většiny předchozí práce náš přístup pokračujícího pre-training nevyžaduje paralelní text.