Texty ve 107 jazycích z korpusu W2C (http://hdl.handle.net/11858/00-097C-0000-0022-6133-9), první 1000000 tokenů pro každý jazyk, označkované delexikalizovaným taggerem popsaným v Yu et al. (2016, LREC, Portorož, Slovenia).