Charles Explorer logo
🇨🇿

Open-source nástroje pro morfologii, lematizaci, rozpoznávání slovních druhů a pojmenovaných entit

Publikace na Matematicko-fyzikální fakulta |
2014

Abstrakt

V této práci představujeme dva nedávno vydané open-source nástroje: NameTag je volně šiřitelný software pro rozpoznávání pojmenovaných entit, který dosahuje nejlepších známých výsledků na češtině; MorphoDiTa provádí morfologickou analýzu (s lematizací), morfologické generování, značkování a tokenizaci s nejlepšími známými výsledky pro češtinu a rychlostí zpracování kolem 10-200 tisíc slov za sekundu. Nástroje mohou být natrénovány pro libovolný jazyk, pro který jsou k dispozici anotovaná data, jsou však zvlášť navrženy tak, aby byly efektivní pro flexivní jazyky.

Oba nástroje jsou volně šiřitelné pod licencí LGPL a jsou distribuovány spolu z předtrénovanými lingvistickými modely, které jsou zdarma pro nekomerční využití podle licence CC BY-NC-SA. Vydání zahrnují samostatné nástroje, knihovny v C++ s vazbami pro Javu, Python a Perl, a konečně webové služby.