Charles Explorer logo
🇨🇿

Zpětnovazební učení pro hlasové dialogové systémy používající off-policy gradientní metody

Publikace na Matematicko-fyzikální fakulta |
2012

Abstrakt

Zpětno vazební učení již bylo úspěšně použito k optimalizaci statisktických dialogových systémů. Typicky zpětnovazební učení se učí online on-policy tj. v přímé interakci s uživatelem.

Alternativou k tomuto přístupu je off-policy učení kdy otimální strategie řízení je určena z korpusu již dříve pořízených dialogů. Tento článek prezentuje a nový zpětnovazební algoritmus založený na přirozených gradientech a vhodné adaptaci samplování dat.

Experimenty ukazují, že prezentovaný algoritmus je schopen se naučit strategii řízení, která je lepší než manuálně vytvořená strategie řízení.