UDPipe na EvaLatin 2020: Kontextualizované embeddingy a embeddingy korpusů

Publikace na Matematicko-fyzikální fakulta |

2020

Abstrakt

Představujeme náš příspěvek k shared tasku EvaLatin, což je první hodnotící kampaň věnovaná hodnocení nástrojů zpracování přirozeného textu pro latinu. Předložili jsme systém založený na UDPipe 2, jednom z vítězů soutěže CoNLL 2018 Shared Task, dále The 2018 Shared Task on Extrinsic Parser Evaluation a také SIGMORPHON 2019 Shared Task.

Náš systém získal s velkým náskokem první místo jak v lemmatizaci tak v značkování v režimu otevřené modality, kde jsou povoleny další trénovací data, v kterémžto případě využíváme všechny latinské korpusy Universal Dependencies. V režimu uzavřené modality, kdy jsou povoleny pouze EvaLatin trénovací data, dosahuje náš systém nejlepších výsledků v lemmatizaci a značkování klasických textů a zároveň dosahuje druhého místa v nastavení napříč žánry a napříč časem.

V ablačních experimentech hodnotíme vliv BERT a XLM-RoBERTa kontextualizovaných embeddingů a také kódování různých druhů latinských korpusů.

Klíčová slova

udpipe evalatin 2020 kontextualizované embeddingy embeddingy korpusů