Při automatickém zpracování rozsáhlých textů v přirozeném jazyce se často opakují podobné úkoly v několika jazycích: i při zpracování obtížných úloh jsou texty vždy zpracovávány obvyklými základními kroky od tokenizace k parsingu. Představujeme mimořádně jednoduchý a použitelný nástroj pro základní zpracování přirozeného jazyka, který sestává pouze z jednoho programu a jednoho modelu (pro každý jazyk).
Tento nástroj provádí tyto úkoly pro mnoho jazyků, aniž by vyžadoval dodatečná data. UDPipe je tedy nástroj, který zpracovává soubory ve formátu CoNLL-U a provádí tokenizaci, morfologickou analýzu, rozpoznávání slovních druhů, lematizaci a závislostní parsing pro téměř všechny jazyky korpusu Universtal Dependencies 1.2 (konkrétně je nástroj dostupný pro 32 jazyků).
Navíc je celý nástroj snadno trénovatelný při použití vlastních trénovacích dat v CoNLL-U formátu a vyžaduje minimální znalost lingvistiky. Kód pro trénovaní nástroje je také dostupný.