Zpětnovazební učení pro hlasové dialogové systémy používající off-policy gradientní metody

Publikace na Matematicko-fyzikální fakulta |

2012

Abstrakt

Zpětno vazební učení již bylo úspěšně použito k optimalizaci statisktických dialogových systémů. Typicky zpětnovazební učení se učí online on-policy tj. v přímé interakci s uživatelem.

Alternativou k tomuto přístupu je off-policy učení kdy otimální strategie řízení je určena z korpusu již dříve pořízených dialogů. Tento článek prezentuje a nový zpětnovazební algoritmus založený na přirozených gradientech a vhodné adaptaci samplování dat.

Experimenty ukazují, že prezentovaný algoritmus je schopen se naučit strategii řízení, která je lepší než manuálně vytvořená strategie řízení.

Klíčová slova

zpětnovazební učení hlasové dialogové systémy používající policy gradientní metody