Paralelní dvojjazyčné korpusy v souladu s větou jsou hlavním a někdy jediným požadovaným zdrojem pro výuku systémů pro překlad statistických a neurálních strojů (SMT, NMT). Navrhujeme koncovou hlubokou neuronovou architekturu pro jazykové nezávislé zarovnání vět.
Kromě zarovnání typu "one-to-one" může náš zarovnávač také provádět cross-a many-to-many alignment. Předkládáme také případovou studii, která ukazuje, jak může výrazná jazyková analýza výrazně zlepšit výkon čisté neuronové sítě.
V souboru Europarl korpus (Koehn, 2005) a anglicko-perského korpusu (Pilevar et al., 2011) jsme použili tři páry jazyků pro vytvoření souhrnu dat. Pomocí této datové sady jsme testovali náš systém jednotlivě a v systému SMT.
V obou nastaveních jsme dosáhli výrazně lepších výsledků ve srovnání s výchozími zdroji open source.