MS MARCO NLG任务调研

NLG——自然语言生成

MS MARCO:https://microsoft.github.io/msmarco/

Natural Language Generation Task:RETIRED(03/01/2018-10/30/2020)

参考论文

Rank Model Paper Code Submissio Date Rouge-L Bleu-1
2 PALM Alibaba Damo NLP PALM: Pre-training an Autoencoding&Autoregressive Language Model for Context-conditioned Generation https://github.com/alibaba/AliceMind/tree/main/PALM December 16th,2019 0.498 0.499
4 Masque NLGEN Style NTT Media Intelligence Laboratories Multi-style Generative Reading Comprehension January 3rd, 2019 0.496 0.501
15 VNET Baidu NLP Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification November 8th, 2018 0.484 0.468
40 ConZNet Samsung Research Cut to the Chase: A Context Zoom-in Network for Reading Comprehension July 16th, 2018 0.421 0.386
90 BiDaF Baseline(Implemented By MSMARCO Team) Allen Institute for AI & University of Washington Bidirectional Attention Flow for Machine Comprehension https://github.com/allenai/bi-att-flow April 23th, 2018 0.169 0.093

数据集

Dataset Segment Query Source Answer Queries Document
SQuAD No Crowd-sourced Span 100k 536
CNN/Daily Mail No close Fill in entity 1.4M 93K CNN, 220K DM
MS MARCO v2 Yes User logs Human generated 1M 8.8M passages, 3.2M docs
NarrativeQA No Crowd-sourced Human generated 47k 1572 stories
DuReader No Crowd-sourced Human generated 200K 1M

常用模型

Model 介绍 论文
PALM Pre-training an Autoencoding&Autoregressive Language Model PALM: Pre-training an Autoencoding&Autoregressive Language Model for Context-conditioned Generation
ConZNet context zoom-in network Cut to the Chase: A Context Zoom-in Network for Reading Comprehension
V-NET an end-to-end frame- work to tackle the multi-passage MRC task Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification
S-Net an extraction-then-synthesis framework S-Net: From Answer Extraction to Answer Generation for Machine Reading Comprehension
Selector NLGEN
BERT+Multi-Pointer
CompLM
Masque based on multi-source abstractive summarization and learns multi-style answers together Multi-style Generative Reading Comprehension
BiDAF Bi-Directional Attention Flow Bidirectional Attention Flow for Machine Comprehension
MRU Multi-Range Reasoning Units Multi-range Reasoning for Machine Comprehension

评价指标

NLG常用metrics:

  • BLEU
  • ROUGE
  • METEOR
  • lNIST/CIDEr
  • STM
  • TER
  • TERp

ROUGE

ROUGE 指标的全称是 (Recall-Oriented Understudy for Gisting Evaluation),主要基于召回率。ROUGE 是一种常用的机器翻译和文章摘要评价指标,由 Chin-Yew Lin 提出。

4 种 ROUGE 方法:

  • ROUGE-N: 在 N-gram 上计算召回率。
  • ROUGE-L: 考虑了机器译文和参考译文之间的最长公共子序列(长度越长,得分越高,基于F值。)
  • ROUGE-W: 改进了ROUGE-L,用加权的方法计算最长公共子序列。

计算公式

  • ROUGE-N:

其中,$n$ 表示n-gram,$Count(gramn)$表示一个n-gram的出现次数,$Count{match}(gram_n)$ 表示一个n-gram的共现次数。

  • ROUGE-L:

其中, $X$表示候选摘要,$Y$表示参考摘要, $LCS(X,Y)$ 表示候选摘要与参考摘要的最长公共子序列的长度,$m$​表示参考摘要的长度,$n$​表示候选摘要的长度。

BLEU

BLEU 的全称是 双语评估辅助工具(Bilingual evaluation understudy),BLEU 的分数取值范围是 0~1,分数越接近1,说明翻译的质量越高。BLEU 主要基于精确率(Precision)。

计算公式

其中$n$表示n-gram,$w_n$​ 表示n-gram的权重。

$BP$表示短句子惩罚因子(brevity penaty),用$r$表示最短的参考翻译的长度,$c$表示候选翻译的长度。$BP$具体计算方法为:

$p_n$表示n-gram的覆盖率,具体计算方式为:

$Count_{clip}$是截断计数,其计数方式为:将一个n-gram在候选翻译中出现的次数,与在各个参考翻译中出现次数的最大值进行比较,取较小的那一个。

METEOR

METEOR全称显式排序的翻译评估指标(Metric for Evaluation of Translation with Explicit Ordering)。

METEOR 是基于BLEU进行了一些改进,其目的是解决一些 BLEU 标准中固有的缺陷 。使用 WordNet 计算特定的序列匹配,同义词,词根和词缀,释义之间的匹配关系,改善了BLEU的效果,使其跟人工判别共更强的相关性。并且,是基于F值的。

计算公式

其中:

$\alpha$ 为可调控的参数,$m$ 为候选翻译中能够被匹配的一元组的数量,$c$ 为候选翻译的长度,$r$为参考摘要的长度。

$pen$ 为惩罚因子,惩罚的是候选翻译中的词序与参考翻译中的词序不同,具体计算方法为:

$m$​是候选翻译中能够被匹配的一元组的数量,$#chunks$​​​ 指的是chunk的数量,即既在候选翻译中相邻又在参考翻译中相邻的被匹配的一元组聚集而成的单位。