NLP的一些评价指标

ROUGE

ROUGE 指标的全称是 (Recall-Oriented Understudy for Gisting Evaluation),主要基于召回率。ROUGE 是一种常用的机器翻译和文章摘要评价指标,由 Chin-Yew Lin 提出。它通过将自动生成的摘要或翻译与一组参考摘要(通常是人工生成的)进行比较计算,得出相应的分值,以衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。

4 种 ROUGE 方法:

  • ROUGE-N: 在 N-gram 上计算召回率。
  • ROUGE-L: 考虑了机器译文和参考译文之间的最长公共子序列(长度越长,得分越高,基于F值。)
  • ROUGE-W: 改进了ROUGE-L,用加权的方法计算最长公共子序列。

计算公式

  • ROUGE-N:

其中,$n$ 表示n-gram,$Count(gramn)$表示一个n-gram的出现次数,$Count{match}(gram_n)$ 表示一个n-gram的共现次数。

  • ROUGE-L:

其中, $X$表示候选摘要,$Y$表示参考摘要, $LCS(X,Y)$ 表示候选摘要与参考摘要的最长公共子序列的长度,$m$表示参考摘要的长度,$n$表示候选摘要的长度。

BLEU

BLEU 的全称是 双语评估辅助工具(Bilingual evaluation understudy),BLEU 的分数取值范围是 0~1,分数越接近1,说明翻译的质量越高。BLEU 主要基于精确率(Precision)。

计算公式

其中$n$表示n-gram,$w_n$ 表示n-gram的权重。

$BP$表示短句子惩罚因子(brevity penaty),用$r$表示最短的参考翻译的长度,$c$表示候选翻译的长度。$BP$具体计算方法为:

$p_n$表示n-gram的覆盖率,具体计算方式为:

$Count_{clip}$是截断计数,其计数方式为:将一个n-gram在候选翻译中出现的次数,与在各个参考翻译中出现次数的最大值进行比较,取较小的那一个。

METEOR

METEOR全称显式排序的翻译评估指标(Metric for Evaluation of Translation with Explicit Ordering)。

METEOR 是基于BLEU进行了一些改进,其目的是解决一些 BLEU 标准中固有的缺陷 。使用 WordNet 计算特定的序列匹配,同义词,词根和词缀,释义之间的匹配关系,改善了BLEU的效果,使其跟人工判别共更强的相关性。并且,是基于F值的。

计算公式

其中:

$\alpha$ 为可调控的参数,$m$ 为候选翻译中能够被匹配的一元组的数量,$c$ 为候选翻译的长度,$r$为参考摘要的长度。

$pen$ 为惩罚因子,惩罚的是候选翻译中的词序与参考翻译中的词序不同,具体计算方法为:

$m$是候选翻译中能够被匹配的一元组的数量,$#chunks$ 指的是chunk的数量,即既在候选翻译中相邻又在参考翻译中相邻的被匹配的一元组聚集而成的单位。