UDPipe je trénovatelný nástroj, který provádí segmentaci vět, tokenizaci, morfologické značkování, lemmatizaci a syntaktickou analýzu. Představujeme prototyp UDPipe 2.0 a jeho vyhodnocení v Soutěži CoNLL 2018 UD: Multilingual Parsing from Raw Text to Universal Dependencies, která využívá tři míry pro hodnocení.
Z 26 účastníků obsadil prototyp první místo dle míry MLAS, třetí dle míry LAS a třetí dle míry BLEX. V extrinsic hodnocení EPE 2018 se systém umístil na prvním místě v celkovém hodnocení.
Prototyp je založen na neuronovou síťi s jediným společným modelem pro současné morfologické značkování, lemmatizaci a syntaktickou analýzu a je trénován pouze pomocí trénovacích dat CoNLL-U a předtrénovaných slovních embeddingů, na rozdíl od obou systémů, které překonaly tento prototyp v LAS a BLEX mírách. Open-source zdrojový kód prototypu je k dispozici na adrese http://github.com/CoNLL-UD-2018/UDPipe-Future.
Po soutěží CoNLL 2018 jsme mírně vylepšili modelovou architekturu, což vedlo k lepšímu výkonu jak v