UDPipe: Trénovatelný nástroj pro zpracování souborů typu CoNLL-U, který provádí tokenizaci, morfologickou analýzu, určování slovních druhů a parsing

Publikace na Matematicko-fyzikální fakulta |

2016

Abstrakt

Při automatickém zpracování rozsáhlých textů v přirozeném jazyce se často opakují podobné úkoly v několika jazycích: i při zpracování obtížných úloh jsou texty vždy zpracovávány obvyklými základními kroky od tokenizace k parsingu. Představujeme mimořádně jednoduchý a použitelný nástroj pro základní zpracování přirozeného jazyka, který sestává pouze z jednoho programu a jednoho modelu (pro každý jazyk).

Tento nástroj provádí tyto úkoly pro mnoho jazyků, aniž by vyžadoval dodatečná data. UDPipe je tedy nástroj, který zpracovává soubory ve formátu CoNLL-U a provádí tokenizaci, morfologickou analýzu, rozpoznávání slovních druhů, lematizaci a závislostní parsing pro téměř všechny jazyky korpusu Universtal Dependencies 1.2 (konkrétně je nástroj dostupný pro 32 jazyků).

Navíc je celý nástroj snadno trénovatelný při použití vlastních trénovacích dat v CoNLL-U formátu a vyžaduje minimální znalost lingvistiky. Kód pro trénovaní nástroje je také dostupný.

Klíčová slova

udpipe trénovatelný nástroj zpracování souborů typu conll který provádí tokenizaci morfologickou analýzu určování slovních druhů parsing