Představujeme novou datovou sadu pro generování jazyka v hlasových dialogových systémech, která spolu s každou odpovědí systému k vygenerování (pár zdrojová sémantická reprezentace – cílová věta v přirozeném jazyce) uvádí i předcházející kontext (uživatelský dotaz). Očekáváme, že tento kontext dovolí generátorům jazyka adaptovat se na způsob vyjadřování uživatele a tím docílit přirozenějších a potenciálně úspěšnějších odpovědí.
Datová sada byla vytvořena za pomoci crowdsourcingu v několika fázích, aby bylo možno získat přirozené uživatelské dotazy a odpovídající přirozené, relevantní a kontextově zapojené odpovědi systému. Datová sada je dostupná online pod otevřenou licencí Creative Commons 4.0 BY-SA.