NLP的一些评价指标

ROUGE

ROUGE 指标的全称是 (Recall-Oriented Understudy for Gisting Evaluation)，主要基于召回率。ROUGE 是一种常用的机器翻译和文章摘要评价指标，由 Chin-Yew Lin 提出。它通过将自动生成的摘要或翻译与一组参考摘要（通常是人工生成的）进行比较计算，得出相应的分值，以衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。

4 种 ROUGE 方法：

ROUGE-N: 在 N-gram 上计算召回率。
ROUGE-L: 考虑了机器译文和参考译文之间的最长公共子序列（长度越长，得分越高，基于F值。）
ROUGE-W: 改进了ROUGE-L，用加权的方法计算最长公共子序列。

计算公式

ROUGE-N：

$ROUGE-N = \frac { \sum_\limits{S\in \{ReferenceSummaries\}} \sum_\limits{gram_n\in S} Count_{match}(gram_n) } { \sum_\limits{S\in \{ReferenceSummaries\}} \sum_\limits{gram_n\in S} Count(gram_n) }$

其中，$n$ 表示n-gram，$Count(gramn)$表示一个n-gram的出现次数，$Count{match}(gram_n)$ 表示一个n-gram的共现次数。

ROUGE-L：

$ROUGE-L = \frac {(1+\beta^2) R_{lcs} P_{lcs}} {R_{lcs} + \beta^2 P_{lcs}} \\ R_{lcs} = \frac {LCS(X, Y)} {m} \\ P_{lcs} = \frac {LCS(X, Y)} {n}$

其中， $X$表示候选摘要，$Y$表示参考摘要， $LCS(X,Y)$ 表示候选摘要与参考摘要的最长公共子序列的长度，$m$表示参考摘要的长度，$n$表示候选摘要的长度。

BLEU

BLEU 的全称是双语评估辅助工具(Bilingual evaluation understudy)，BLEU 的分数取值范围是 0～1，分数越接近1，说明翻译的质量越高。BLEU 主要基于精确率(Precision)。

计算公式

$BLEU = BP \cdot exp(\sum_\limits{n=1}^N w_n log\, p_n )$

其中$n$表示n-gram，$w_n$ 表示n-gram的权重。

$BP$表示短句子惩罚因子（brevity penaty)，用$r$表示最短的参考翻译的长度，$c$表示候选翻译的长度。$BP$具体计算方法为：

$f(x) = \begin{array}{lr} 1 & c>r\\ e^{(1-r/c)} & c \le r \end{array}$

$p_n$表示n-gram的覆盖率，具体计算方式为：

$p_n = \frac { \sum_\limits{C\in \{Candidates\}} \sum_\limits{n-gram\in C} Count_{clip}(n-gram) } { \sum_\limits{C'\in \{Candidates\}} \sum_\limits{n-gram\in C'} Count(n-gram) }$