Dvě reprodukce lidmi hodnoceného srovnávacího hodnocení systému detekce sémantických chyb

Publikace na Matematicko-fyzikální fakulta |

2022

Abstrakt

V tomto článku prezentujeme výsledky dvou reprodukčních studií lidského hodnocení, které původně reportovali Dušek a Kasner (2020) a ve kterém autoři srovnávali výstupy vytvořené systémem pro detekci sémantických chyb při generování textu z dat s referenčními výstupy. V první reprodukční studii původní hodnotitelé opakují hodnocení v rámci testu opakovatelnosti původního hodnocení.

Ve druhé studii dva noví hodnotitelé provádějí úlohu hodnocení v rámci testu reprodukovatelnosti původního hodnocení za jinak stejných podmínek. Popisujeme náš přístup k reprodukci a prezentujeme a analyzujeme výsledky, přičemž zjišťujeme různé stupně reprodukovatelnosti v závislosti na typu výsledku, údajích a úloze označování.

Naše zdroje jsou k dispozici a mají otevřený zdrojový kód.

Klíčová slova

reprodukce lidmi hodnoceného srovnávacího hodnocení systému detekce sémantických chyb