V tomto článku prezentujeme výsledky dvou reprodukčních studií lidského hodnocení, které původně reportovali Dušek a Kasner (2020) a ve kterém autoři srovnávali výstupy vytvořené systémem pro detekci sémantických chyb při generování textu z dat s referenčními výstupy. V první reprodukční studii původní hodnotitelé opakují hodnocení v rámci testu opakovatelnosti původního hodnocení.
Ve druhé studii dva noví hodnotitelé provádějí úlohu hodnocení v rámci testu reprodukovatelnosti původního hodnocení za jinak stejných podmínek. Popisujeme náš přístup k reprodukci a prezentujeme a analyzujeme výsledky, přičemž zjišťujeme různé stupně reprodukovatelnosti v závislosti na typu výsledku, údajích a úloze označování.
Naše zdroje jsou k dispozici a mají otevřený zdrojový kód.