Charles Explorer logo
🇨🇿

Morfologická a jazykově nezávislá segmentace slov pro NMT

Publikace na Matematicko-fyzikální fakulta |
2018

Abstrakt

V současných neuronových systémech pro strojový překlad textů přirozeného jazyka (NMT) se morfologicky příbuzná slova zpracovávají jejich rozdělením na podslovní jednotky takovým způsobem, aby se slovník jednotek vešel do limitů daných zvoleným NMT modelem a do paměti grafické karty. V tomto článku srovnáváme dva nejobvyklejší, nelingvistické, způsoby vytváření podslovních jednotek (BPE a STE, metody implementované v nástroji Tensor2Tensor) se dvěma lingvisticky motivovanými způsoby: Nástrojem Morfessor a námi vyvinutou metodou založenou na derivačních vztazích.

Naše experimenty s překladem z němčiny do češtiny, morfologicky bohatých jazyků, ukazují, že prozatím mají lepší výsledky nelingvistické metody. K tomu identifikujeme důležitý rozdíl mezi BPE a STE a ukazujeme, že jednoduché předzpracování textu před BPE výrazně zvyšuje kvalitu překladu vyhodnocovanou automatickými metrikami.