Strategie kombinování více vstupů v dekodéru modelu Transformer

Publikace na Matematicko-fyzikální fakulta |

2018

Abstrakt

Při sekvenčním učením s více zrdoje informace, může být mechanismus pozornosti (attention) modelován různými způsoby. Toto téma bylo důkladně studováno na rekurentních neurnovoých sítích.

V tomto článku se zabýváme tímto problém v architektuře Transormer. Navrhujeme čtyři různé strategie kombinace vstupů: sériové, paralelní, ploché a hierarchické.

Navrhované metody vyhodnocujeme na úloze multimodálního překladu a překladu z více zdrojových jazyků současně. Z výsledků experimentů vyplývá, že modely jsou schopny využívat více zdrojů a fungovat lépe než modely s pouze jedním zdrojem informace.

Klíčová slova

strategie kombinování více vstupů dekodéru modelu transformer