V mediálním průmyslu se zaměření globálního zpravodajství může přes noc změnit. Existuje přesvědčivá potřeba být schopni vyvinout nové systémy strojového překladu v krátkém časovém období, aby bylo možné efektivněji pokrýt rychle se vyvíjející příběhy.
Jako součást stroje s nízkými zdroji překladatelského projektu GOURMET jsme náhodně vybrali jazyk, pro který musel být systém postaveno a vyhodnoceno za dva měsíce (únor a březen 2021). Vybraný jazyk byl Paštština, indoíránský jazyk používaný v Afghánistánu, Pákistánu a Indii.
V tomto období jsme dokončili celý proces vývoje systému neuronového strojového překladu: procházení dat, čištění, zarovnání, vytváření testovacích sad, vývoj a testování modelů a jejich poskytování uživatelským partnerům. V tomto článku popisujeme rychlý proces vytváření dat a experimenty s transferovým učením a přípravou na paštskou angličtinu.
Zjišťujeme, že začínáme od existujícího velký model předem proškolený na 50 jazycích vede k mnohem lepším výsledkům BLEU než předtrénová