Charles Explorer logo
🇨🇿

Korpus InterCorp, verze 13

Publikace

Abstrakt

Nová verze rozsáhlého paralelního korpusu obsahujícího překlady mezi celkem 41 jazyky (včetně češtiny). V porovnání s verzí 12 se počet slov v cizojazyčných textech zvýšil na 1 550 mil., z toho 327 mil. v beletristickém jádru a 1 223 mil. ve volně dostupných kolekcích.

Počet slov v českých textech činí celkem 203 mil., z toho 113 mil. jádro a 90 mil. kolekce. Nově přibyly čínské texty v beletristické části a slovinština je tagována novým taggerem ReLDI.