Charles Explorer logo
🇨🇿

Large-Scale Colloquial Persian 0.5

Publikace

Abstrakt

"Large Scale Colloquial Persian Dataset" (LSCP) je hierarchicky uspořádán do asemantické taxonomie, která se zaměřuje na víceúčelové neformální porozumění perskému jazyku jako komplexní problém. LSCP zahrnuje 120 milionů vět z 27 milionů příležitostných perských tweetů se svými závislostními vztahy ve syntaktické anotaci, tagy řeči, polaritu sentimentu a automatický překlad původních perských vět do pěti různých jazyků (EN, CS, DE, IT, HI).