BERTScore (Zhang et al., 2020), nedávno navržená automatická metrika kvality strojového překladu, používá BERT (Devlin et al., 2019), velký předškolený jazykový model pro hodnocení kandidátských překladů s ohledem na zlatý překlad. BERTScore využívá sémantických a syntaktických schopností BERT a snaží se vyhnout chybám dřívějších přístupů, jako je BLEU, místo toho hodnotí kandidátské překlady na základě jejich sémantické podobnosti se zlatou větou.
BERT však není neomylný; zatímco jeho výkon v oblasti úkolů NLP obecně nastoluje nový stav, studie specifických syntaktických a sémantických jevů ukázaly, kde se výkon BERT odchyluje od výkonu lidí obecněji. To přirozeně vyvolává otázky, kterými se v tomto dokumentu zabýváme: jaké jsou silné a slabé stránky BERTScore? Souvisejí s známé slabiny na straně BERT? Zjistili jsme, že BERTScore sice dokáže odhalit, když se kandidát liší od odkazu v důležitých obsahových slovech, ale je méně citlivý na menší chyby, zejména pokud je kandidát lexikálně nebo stylistick