"Large Scale Colloquial Persian Dataset" (LSCP) je hierarchicky uspořádán do asemantické taxonomie, která se zaměřuje na víceúčelové neformální porozumění perskému jazyku jako komplexní problém. LSCP zahrnuje 120 milionů vět z 27 milionů příležitostných perských tweetů se svými závislostními vztahy ve syntaktické anotaci, tagy řeči, polaritu sentimentu a automatický překlad původních perských vět do pěti různých jazyků (EN, CS, DE, IT, HI).