UDPipe na SIGMORPHON 2019: Kontextualizované embeddingy, regularizace morfologickými kategoriemi, slučování korpusů

Publikace na Matematicko-fyzikální fakulta |

2019

Abstrakt

Představujeme náš příspěvek k shared tasku SIGMORPHON 2019: Crosslingualita a kontext v morfologii, úkol 2: kontextová morfologická analýza a lemmatizace. Odevzdali jsme modifikaci UDPipe 2.0, jednoho z výherního systému CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies a celkového vítěze The 2018 Shared Task on Extrinsic Parser Evaluation.

Jako první vylepšení používáme předtrénované kontextualizované embeddingy (BERT) jako další vstupy do sítě, za druhé používáme jednotlivé morfologické vlastnosti jako regularizaci a nakonec slučujeme vybrané korpusy stejného jazyka. V lemmatizačním úkolu náš systém výrazně převyšuje všechny ostatní systémy s přesností lemmatizace 95,78 (druhý nejlepší byl 95,00, třetí 94,46).

V morfologické analýze se náš systém umístil těsně druhý: přesnost naší morfologické analýzy byla 93,19, vítězný systém měl 93,23.

Klíčová slova

udpipe sigmorphon 2019 kontextualizované embeddingy regularizace morfologickými kategoriemi slučování korpusů