Tento článek představuje metody, jimiž byly označkovány tři velké textové korpusy (SYN2000, SYN2005 a SYN2006PUB). Postup značkování má několik fází: tokenizaci a segmentaci, morfologickou analýzu a disambiguaci.
Při značkování korpusů byly použity jak stochastické, tak pravidlové metody.