Tento článek popisuje Parmesan, náš příspěvěk na Workshop on Statistical Machine Translation 2014. Ukazuje, že parafr ázovací tabulky Meteoru pro češtinu obsahují tolik šumu, že jejich použití ve skutečnosti může poškodit výkon metriky.
Nicméně po důkladní filtraci mohou být velmi užitečné v cíleném parafrázovní referenčních vět předcházejícím evaluaci. Parmesan nejprve provede cílené parafrázování referenčních vět a poté spočítá Meteor score s pouze přímou shodou na těchto nových referencích.
Na datech z WMT12 a WMT13 ukazuje signifikantně vyšší shodu s lidským hodnocením než Meteor.