HindEnCorp – hindsko-anglický a jednojazyčný hindský korpus pro strojový překlad

Publikace na Matematicko-fyzikální fakulta |

2014

Abstrakt

Představujeme HindEnCorp, paralelní hindsko-anglický korpus, a HindMonoCorp, jednojazyčný hindský korpus ve verzi 0.5. Oba korpusy byly získány z webových zdrojů a předzpracovány primárně pro trénování systémů statistického strojového překladu.

HindEnCorp sestává z 274k paralelních vět (3,9 miliónů hindských a 3,8 miliónů anglických tokenů). HindMonoCorp obsahuje 787 miliónů tokenů ve 44 miliónech vět.

Oba korpusy jsou zdarma přístupné pro nekomerční výzkum a jejich předběžné vydání bylo využito řadou účastníků společné překladové úlohy WMT 2014.

Klíčová slova

hindencorp hindsko anglický jednojazyčný hindský korpus strojový překlad