Charles Explorer logo
🇨🇿

Morfologické značkování a lemmatizace v korpusech ČNK

Publikace na Matematicko-fyzikální fakulta |
2007

Abstrakt

Tento článek představuje metody, jimiž byly označkovány tři velké textové korpusy (SYN2000, SYN2005 a SYN2006PUB). Postup značkování má několik fází: tokenizaci a segmentaci, morfologickou analýzu a disambiguaci.

Při značkování korpusů byly použity jak stochastické, tak pravidlové metody.