Představujeme HindEnCorp, paralelní hindsko-anglický korpus, a HindMonoCorp, jednojazyčný hindský korpus ve verzi 0.5. Oba korpusy byly získány z webových zdrojů a předzpracovány primárně pro trénování systémů statistického strojového překladu.
HindEnCorp sestává z 274k paralelních vět (3,9 miliónů hindských a 3,8 miliónů anglických tokenů). HindMonoCorp obsahuje 787 miliónů tokenů ve 44 miliónech vět.
Oba korpusy jsou zdarma přístupné pro nekomerční výzkum a jejich předběžné vydání bylo využito řadou účastníků společné překladové úlohy WMT 2014.