Charles Explorer logo
🇨🇿

Vytvoreni NLP Pipeline pro rustinu s pouzitim maleho mnoznstvi lingvistickych dat

Publikace na Matematicko-fyzikální fakulta |
2016

Abstrakt

Tato práce se zabývá otázkou budování svobodného NLP potrubí pro zpracování ruské texty z prostého textu na morfologicky a syntakticky anotovaný struktury ve formátu CONLL. Potrubí je napsán v python3.

Segmentace je zajišťována vlastní modul. Mystem s četnými postprocesních oprav se používá pro lemmatizace a morfologie značkování.

A konečně, syntaktická anotace se získá MaltParser využitím naší vlastní model vyškolený na SynTagRus, který byl převeden do formátu CONLL pro tento účel, s jeho morfologické tagset převádí do Mystem / ruského národního korpusu tagset