Zpětno vazební učení již bylo úspěšně použito k optimalizaci statisktických dialogových systémů. Typicky zpětnovazební učení se učí online on-policy tj. v přímé interakci s uživatelem.
Alternativou k tomuto přístupu je off-policy učení kdy otimální strategie řízení je určena z korpusu již dříve pořízených dialogů. Tento článek prezentuje a nový zpětnovazební algoritmus založený na přirozených gradientech a vhodné adaptaci samplování dat.
Experimenty ukazují, že prezentovaný algoritmus je schopen se naučit strategii řízení, která je lepší než manuálně vytvořená strategie řízení.