Představujeme experimenty s automatickým odhalováním nekonzistentního chování na základě kontextu u dialogových systémů orientovaných na úkoly. Obohacujeme data bAbI/DSTC2 (Bordes et al., 2017) o automatickou anotaci nekonzistencí v dialogu a ukazujeme, že nekonzistence korelují s neúspěšnými dialogy.
Předpokládáme, že použití omezené historie dialogů a předvídání dalšího tahu uživatele může zlepšit klasifikaci nekonzistencí. Zatímco obě hypotézy se potvrzují pro dialogový model založený na memory networks, neplatí pro trénování jazykového modelu GPT-2, který nejvíce těží z použití úplné historie dialogu a dosahuje 99% přesnosti.