Charles Explorer logo
🇨🇿

75 jazyků, 1 model: Závislostní analýza Universal Dependencies univerzálně

Publikace na Matematicko-fyzikální fakulta |
2019

Abstrakt

Představujeme UDify, vícejazyčný víceúlohový model schopný přesně předpovědět univerzální slovní druhy, morfologické rysy, lemmata a závislostní stromy současně pro všech 124 treebanků Universal Dependencies napříč 75 jazyky. Využitím vícejazyčného modelu BERT předcvičeného na 104 jazycích jsme zjistili, že jeho dotrénování na všech zřetězených treebancích spolu s jednoduchými softmax klasifikátory pro každý úkol UD ústí v nejlepší známé výsledky pro UPOS, UFeats, lemmatizaci, UAS a LAS metriky, aniž by vyžadovalo jakékoli rekurentní nebo jazykově specifické komponenty.

Hodnocení UDify ukazuje, že vícejazyčné učení nejvíce prospívá jazykům s málo daty. Vícejazykové trénovaní poskytuje kvalitní předpovědi i pro jazyky, které nebyly zastoupeny v trénovacích datech, naznačují, že i pro ně posky vícejazyčné školen.

Zdrojový kód UDify je dostupný na https://github.com/hyperparticle/udify.