V první části studie jsme představili nov ě vznikající korpus PSP a prodiskutovali jsme některé trendy v oblasti korpusové lingvistiky, především tendenci k přenesení metod do ostatních odvětví lingvistiky a s tím spojenou tendenci k vytváření malých korpusů. Tyto korpusy jsou budovány ke specifickým účelům a často vyžadují alternativní metody vytěžování.
Protože není možno při zpracování takto specifických korpusů těžit z rozsáhlého technického zázemí, naznačujeme alternativní přístup. Primárním cílem korpusu PSP je shromáždění materiálu za účelem stylistického výzkumu prováděného korpusovými metodami, které se snažíme naznačit v druhé části studie.
Zvolili jsme dva mluvčí s podobnými charakteristikami a extrahovali jsme z korpusu seznamy všech typů slovních tvarů a 2-5gramy. Vycházeli jsme z frekvenčního srovnání nejčastějších společných typů slovních tvarů, přičemž jsme se zaměřili na znaky, které zřetelně odlišují oba dva mluvčí. (Určili jsme např. preferenci při užití invariantních jazykových prostředků.) V závěru studie jsme srovnali frekvenční špičku 5gramů a konstatovali jsme, že se dají vydělit strukturně i obsahově podobné sekvence textu, jejichž stejnorodost může v budoucnosti sloužit k jejich automatickému rozlišování.
K měření podobnosti / rozdílnosti mezi n-gramy navrhujeme užívat metriky pocházející z teorie informace.