Native Chinese Reader: A Dataset Towards Native-Level Chinese Machine Reading Comprehension

论文:https://arxiv.org/abs/2112.06494

数据集官网:https://sites.google.com/ view/native-chinese-reader/

会议:NeurIPS 2021

任务

​ 本文介绍了一个新的机器阅读理解(MRC)数据集,即Native Chinese Reader(NCR),其中包含大量现代汉语和古典汉语的文章。NCR是从中国高中语文课程的试题中收集的,该试题旨在评估中国本土年轻人的语言能力。现有的中文MRC数据集要么是特定领域的,要么只关注现代汉语中几百个字符的短上下文。相比之下,NCR包含8390份文本,平均长度为1024个字符,涵盖了广泛的中国写作风格,包括现代文章、古典文学和古典诗歌。这些文本中总共有20477个问题需要很强的推理能力和常识才能找到正确答案。

现有数据集为构建与母语为汉语的人具有相同语言水平的MRC模型来说有几点局限性:

  • 文本长度太短,例如,多项选择数据集$C^3_M$,平均文档长度仅为180字符。甚至在完形填空数据集中长度也仅为500 characters。
  • 问题难度不够。大多数现有数据集要么是抽取的,要么是特定领域的(例如,关注惯用语或简单事实)。
  • 现有的数据集都没有考虑中国古典文献和古典诗歌的阅读理解。

方法(模型)

数据集

Native Chinese Reader(NCR)

  • NCR包含8390份文本,平均长度为1024个字符,涵盖了广泛的中国写作风格,包括现代文章、古典文学和古典诗歌。

  • 这些文本中总共有20477个问题需要很强的推理能力和常识才能找到正确答案。

  • 平均长度为1024个字符。
  • NCR中四分之一的文档是用文言文编写的。
  • NCR中大约10%的经典文献是诗歌。
  • training/validation/test set中负例的占比分别是56.49%、57.63%和56.14%。负例指:“不正确” (“incorrect”), “不符合” (“incompatible”) or “不恰当” (“inappropriate”)。因此也需要模型有一定的推理能力。

高考中文言文是必考项目,所以说还是挺重要的吧。

idioms:成语,也算是文言文的一种形式。

$C^3$

  • 虽然提供基于考试的自由形式多项选择题,但是它们是为非母语人士设计的,因此不需要母语水平的推理能力和常识来回答问题。
  • 平均文档长度仅为180字符

NCR与其他数据集的比较:

image-20220329170653169

中文多选数据集分析比较:

image-20220329204610985

  • 可以观察到现代中国文章的长度是古典中国文献的两倍以上。与其他中文MRC数据集相比,NCR要长一个数量级,甚至包括那些非常简洁的文言文文档。
  • NCR还包含更长的问题和答案选项。

验证集和测试集文档长度:

image-20220329205603444

写作风格:

文言文(D1),现代中文(D2)

image-20220329205950589

文言文写作风格

​ 这部分论文介绍比较详细,总的来说,文言文有区别于现在的句型,比如改变字符的顺序,在理解主语和宾语时经常省略主语和宾语。大多数文言词都是用一个汉字来表达的,因此不受词类的限制等等。

中文写作风格

对于NCR中的现代汉语文档而言,除了平均长度较长带来的挑战外,相关问题还更多地关注更深层的隐喻和潜在思想,这通常需要结合历史和文化知识进行非琐碎的推理。比如从整篇文章中推断答案,可能要求读者对作者的个人经历和时代背景有很强的了解。需要一定的额外背景知识。

文本类型分类

文言文和现代文在长度上的分界线

以长度为10计算。

image-20220329211818382

问题分类

分为5类

  1. 匹配问题:查询文档中明确描述的事实。正确答案可以直接从文件中的一小段或一句话中获得。请注意,不同的选项可以引用不同的跨度。
  2. 语义问题:询问句子中单词或字符的语义,包括反义词、同义词、修辞和分词。
  3. 摘要问题:要求读者理解整个文件中陈述的所有事实,以便选择所需的选项,该选项提供正确或错误的事实摘要。
  4. 推理问题:要求读者进行非琐碎(non-trivial)的推理,以推断文件中未明确说明的结论。NCR中的推理问题通常要求读者具备丰富的背景知识和常识。
  5. 情绪问题:询问作者在文件中表达的隐含情绪。NCR中的情感问题通常需要了解意象、象征意义,甚至作者的社会政治观点。

问题类型分布:

image-20220329214006535

性能水平

本文把随机猜测和确定性选择作为基线。

image-20220329214703687

Competition 是比赛的最优结果。

不同写作风格下的性能:

image-20220329215102958

不同类型问题下,人与机器的性能对比:

image-20220329220649716

结论

​ 作者团队使用流行的中文预训练模型实现了多个基线模型,并使用NCR数据集启动了一个在线竞赛,以检查当前方法的局限性。最佳模型的测试准确率为59%,而人工评估的平均准确率为79%,这表明当前的MRC模型与母语为汉语的人之间存在显著的性能差距,这为未来的研究提供了巨大的机会,并有望推动中国自然语言理解的前沿。