MS MARCO NLG任务调研
MS MARCO NLG任务调研
NLG——自然语言生成
MS MARCO:https://microsoft.github.io/msmarco/
Natural Language Generation Task:RETIRED(03/01/2018-10/30/2020)
参考论文
Rank | Model | Paper | Code | Submissio Date | Rouge-L | Bleu-1 |
---|---|---|---|---|---|---|
2 | PALM Alibaba Damo NLP | PALM: Pre-training an Autoencoding&Autoregressive Language Model for Context-conditioned Generation | https://github.com/alibaba/AliceMind/tree/main/PALM | December 16th,2019 | 0.498 | 0.499 |
4 | Masque NLGEN Style NTT Media Intelligence Laboratories | Multi-style Generative Reading Comprehension | January 3rd, 2019 | 0.496 | 0.501 | |
15 | VNET Baidu NLP | Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification | November 8th, 2018 | 0.484 | 0.468 | |
40 | ConZNet Samsung Research | Cut to the Chase: A Context Zoom-in Network for Reading Comprehension | July 16th, 2018 | 0.421 | 0.386 | |
90 | BiDaF Baseline(Implemented By MSMARCO Team) Allen Institute for AI & University of Washington | Bidirectional Attention Flow for Machine Comprehension | https://github.com/allenai/bi-att-flow | April 23th, 2018 | 0.169 | 0.093 |
数据集
Dataset | Segment | Query Source | Answer | Queries | Document |
---|---|---|---|---|---|
SQuAD | No | Crowd-sourced | Span | 100k | 536 |
CNN/Daily Mail | No | close | Fill in entity | 1.4M | 93K CNN, 220K DM |
MS MARCO v2 | Yes | User logs | Human generated | 1M | 8.8M passages, 3.2M docs |
NarrativeQA | No | Crowd-sourced | Human generated | 47k | 1572 stories |
DuReader | No | Crowd-sourced | Human generated | 200K | 1M |
常用模型
Model | 介绍 | 论文 |
---|---|---|
PALM | Pre-training an Autoencoding&Autoregressive Language Model | PALM: Pre-training an Autoencoding&Autoregressive Language Model for Context-conditioned Generation |
ConZNet | context zoom-in network | Cut to the Chase: A Context Zoom-in Network for Reading Comprehension |
V-NET | an end-to-end frame- work to tackle the multi-passage MRC task | Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification |
S-Net | an extraction-then-synthesis framework | S-Net: From Answer Extraction to Answer Generation for Machine Reading Comprehension |
Selector NLGEN | ||
BERT+Multi-Pointer | ||
CompLM | ||
Masque | based on multi-source abstractive summarization and learns multi-style answers together | Multi-style Generative Reading Comprehension |
BiDAF | Bi-Directional Attention Flow | Bidirectional Attention Flow for Machine Comprehension |
MRU | Multi-Range Reasoning Units | Multi-range Reasoning for Machine Comprehension |
评价指标
NLG常用metrics:
- BLEU
- ROUGE
- METEOR
- lNIST/CIDEr
- STM
- TER
- TERp
ROUGE
ROUGE 指标的全称是 (Recall-Oriented Understudy for Gisting Evaluation),主要基于召回率。ROUGE 是一种常用的机器翻译和文章摘要评价指标,由 Chin-Yew Lin 提出。
4 种 ROUGE 方法:
- ROUGE-N: 在 N-gram 上计算召回率。
- ROUGE-L: 考虑了机器译文和参考译文之间的最长公共子序列(长度越长,得分越高,基于F值。)
- ROUGE-W: 改进了ROUGE-L,用加权的方法计算最长公共子序列。
计算公式
- ROUGE-N:
其中,$n$ 表示n-gram,$Count(gramn)$表示一个n-gram的出现次数,$Count{match}(gram_n)$ 表示一个n-gram的共现次数。
- ROUGE-L:
其中, $X$表示候选摘要,$Y$表示参考摘要, $LCS(X,Y)$ 表示候选摘要与参考摘要的最长公共子序列的长度,$m$表示参考摘要的长度,$n$表示候选摘要的长度。
BLEU
BLEU 的全称是 双语评估辅助工具(Bilingual evaluation understudy),BLEU 的分数取值范围是 0~1,分数越接近1,说明翻译的质量越高。BLEU 主要基于精确率(Precision)。
计算公式
其中$n$表示n-gram,$w_n$ 表示n-gram的权重。
$BP$表示短句子惩罚因子(brevity penaty),用$r$表示最短的参考翻译的长度,$c$表示候选翻译的长度。$BP$具体计算方法为:
$p_n$表示n-gram的覆盖率,具体计算方式为:
$Count_{clip}$是截断计数,其计数方式为:将一个n-gram在候选翻译中出现的次数,与在各个参考翻译中出现次数的最大值进行比较,取较小的那一个。
METEOR
METEOR全称显式排序的翻译评估指标(Metric for Evaluation of Translation with Explicit Ordering)。
METEOR 是基于BLEU进行了一些改进,其目的是解决一些 BLEU 标准中固有的缺陷 。使用 WordNet 计算特定的序列匹配,同义词,词根和词缀,释义之间的匹配关系,改善了BLEU的效果,使其跟人工判别共更强的相关性。并且,是基于F值的。
计算公式
其中:
$\alpha$ 为可调控的参数,$m$ 为候选翻译中能够被匹配的一元组的数量,$c$ 为候选翻译的长度,$r$为参考摘要的长度。
$pen$ 为惩罚因子,惩罚的是候选翻译中的词序与参考翻译中的词序不同,具体计算方法为:
$m$是候选翻译中能够被匹配的一元组的数量,$#chunks$ 指的是chunk的数量,即既在候选翻译中相邻又在参考翻译中相邻的被匹配的一元组聚集而成的单位。