Native Chinese Reader A Dataset Towards Native-Level Chinese Machine Reading Comprehension
Native Chinese Reader: A Dataset Towards Native-Level Chinese Machine Reading Comprehension
论文:https://arxiv.org/abs/2112.06494
数据集官网:https://sites.google.com/ view/native-chinese-reader/
会议:NeurIPS 2021
任务
本文介绍了一个新的机器阅读理解(MRC)数据集,即Native Chinese Reader(NCR),其中包含大量现代汉语和古典汉语的文章。NCR是从中国高中语文课程的试题中收集的,该试题旨在评估中国本土年轻人的语言能力。现有的中文MRC数据集要么是特定领域的,要么只关注现代汉语中几百个字符的短上下文。相比之下,NCR包含8390份文本,平均长度为1024个字符,涵盖了广泛的中国写作风格,包括现代文章、古典文学和古典诗歌。这些文本中总共有20477个问题需要很强的推理能力和常识才能找到正确答案。
现有数据集为构建与母语为汉语的人具有相同语言水平的MRC模型来说有几点局限性:
- 文本长度太短,例如,多项选择数据集$C^3_M$,平均文档长度仅为180字符。甚至在完形填空数据集中长度也仅为500 characters。
- 问题难度不够。大多数现有数据集要么是抽取的,要么是特定领域的(例如,关注惯用语或简单事实)。
- 现有的数据集都没有考虑中国古典文献和古典诗歌的阅读理解。
方法(模型)
数据集
Native Chinese Reader(NCR)
NCR包含8390份文本,平均长度为1024个字符,涵盖了广泛的中国写作风格,包括现代文章、古典文学和古典诗歌。
这些文本中总共有20477个问题需要很强的推理能力和常识才能找到正确答案。
- 平均长度为1024个字符。
- NCR中四分之一的文档是用文言文编写的。
- NCR中大约10%的经典文献是诗歌。
- training/validation/test set中负例的占比分别是56.49%、57.63%和56.14%。负例指:“不正确” (“incorrect”), “不符合” (“incompatible”) or “不恰当” (“inappropriate”)。因此也需要模型有一定的推理能力。
高考中文言文是必考项目,所以说还是挺重要的吧。
idioms:成语,也算是文言文的一种形式。
$C^3$
- 虽然提供基于考试的自由形式多项选择题,但是它们是为非母语人士设计的,因此不需要母语水平的推理能力和常识来回答问题。
- 平均文档长度仅为180字符
NCR与其他数据集的比较:
中文多选数据集分析比较:
- 可以观察到现代中国文章的长度是古典中国文献的两倍以上。与其他中文MRC数据集相比,NCR要长一个数量级,甚至包括那些非常简洁的文言文文档。
- NCR还包含更长的问题和答案选项。
验证集和测试集文档长度:
写作风格:
文言文(D1),现代中文(D2)
文言文写作风格
这部分论文介绍比较详细,总的来说,文言文有区别于现在的句型,比如改变字符的顺序,在理解主语和宾语时经常省略主语和宾语。大多数文言词都是用一个汉字来表达的,因此不受词类的限制等等。
中文写作风格
对于NCR中的现代汉语文档而言,除了平均长度较长带来的挑战外,相关问题还更多地关注更深层的隐喻和潜在思想,这通常需要结合历史和文化知识进行非琐碎的推理。比如从整篇文章中推断答案,可能要求读者对作者的个人经历和时代背景有很强的了解。需要一定的额外背景知识。
文本类型分类
文言文和现代文在长度上的分界线
以长度为10计算。
问题分类
分为5类
- 匹配问题:查询文档中明确描述的事实。正确答案可以直接从文件中的一小段或一句话中获得。请注意,不同的选项可以引用不同的跨度。
- 语义问题:询问句子中单词或字符的语义,包括反义词、同义词、修辞和分词。
- 摘要问题:要求读者理解整个文件中陈述的所有事实,以便选择所需的选项,该选项提供正确或错误的事实摘要。
- 推理问题:要求读者进行非琐碎(non-trivial)的推理,以推断文件中未明确说明的结论。NCR中的推理问题通常要求读者具备丰富的背景知识和常识。
- 情绪问题:询问作者在文件中表达的隐含情绪。NCR中的情感问题通常需要了解意象、象征意义,甚至作者的社会政治观点。
问题类型分布:
性能水平
本文把随机猜测和确定性选择作为基线。
Competition 是比赛的最优结果。
不同写作风格下的性能:
不同类型问题下,人与机器的性能对比:
结论
作者团队使用流行的中文预训练模型实现了多个基线模型,并使用NCR数据集启动了一个在线竞赛,以检查当前方法的局限性。最佳模型的测试准确率为59%,而人工评估的平均准确率为79%,这表明当前的MRC模型与母语为汉语的人之间存在显著的性能差距,这为未来的研究提供了巨大的机会,并有望推动中国自然语言理解的前沿。