Charles Explorer logo
🇨🇿

Pražský závislostní korpus styl pro Tamil

Publikace na Matematicko-fyzikální fakulta |
2012

Abstrakt

Anotované korpusy jako treebanks jsou důležité pro vývoj analyzátorů, jazykové aplikace, stejně jako porozumění Jazyk sám. Jen velmi málo jazyků mají tyto omezené zdroje.

V tomto článku si popíšeme naše úsilí v syntakticky anotace malé korpusy (600 vět) z Tamil jazyce. Naše anotace je podobný Pražského závislostního korpusu (PDT) a skládá se z Anotace na 2 podlažích či vrstev: (i) Morfologická rovina (m-layer) a (ii) analytické vrstvy (vrstvy).

U obou vrstev, uvádíme anotace programů, tj. poziční značení pro m-layer a vztahy závislosti na několika vrstev. Na závěr budeme diskutovat některé otázky v korpus vývoj pro Tamil.