Charles Explorer logo
🇨🇿

OdiEnCorp 2.0: Paralelní urijsko-anglický korpus pro strojový překlad

Publikace na Matematicko-fyzikální fakulta |
2020

Abstrakt

Příprava paralelních korpusů je náročným úkolem, zejména pro jazyky, které trpí nedostatečným zastoupením v digitálním světě. Ve vícejazyčné zemi, jako je Indie, je potřeba takových paralelních korpusů přísná pro několik jazyků s nízkými zdroji.

V této práci poskytujeme rozšířený anglicko-odijský paralelní korpus OdiEnCorp 2.0 zaměřený zejména na systémy Neural Machine Translation (NMT), které pomohou přeložit angličtinu LEFT RIGHT ARROW Odia. OdiEnCorp 2.0 zahrnuje stávající anglicko-odijské korpusy a sbírku jsme rozšířili o několik dalších metod získávání dat: paralelní škrábání dat z mnoha webů, včetně Odia Wikipedia, ale také optické rozpoznávání znaků (OCR) pro extrakci paralelních dat ze skenovaných obrázků.

Náš přístup k extrakci dat založený na OCR pro vytváření paralelního korpusu je vhodný pro jiné jazyky s nízkými zdroji, které nemají online obsah. Výsledný OdiEnCorp 2.0 obsahuje 98 302 vět a 1,69 milionu anglických a 1,47 milionu žetonů Odia.

Pokud je nám známo, OdiEnCorp 2.0 je největší Odia-anglický pa