Retrieval-Free Knowledge-Grounded Dialogue Response Generation

论文：https://arxiv.org/abs/2105.06232

AAAI 2021

任务

为了使产生的对话响应多样化和丰富，近年来对基于知识的对话研究，现有的方法通过检索大量语料库中的相关句子，并使用显式的额外信息增强对话来解决基于知识对话任务的挑战。尽管取得了成功，但是现有的工作在推理效率上存在缺陷。本文提出了一种端到端的框架KnowExpert，它绕过显式检索过程，通过轻量级适配器将知识注入预训练语言模型，并适应基于知识的对话任务。

本文对话生成模型与以往增强对话生成方法的区别：

以往的解决方案包括：

在该方案中，知识检索和知识选择被认为构成了知识概念化的过程。

知识检索，用于从大型语料库（如维基百科）检索相关知识句子；
知识选择，用于选择最相关的知识句子进行生成；
知识增强生成，用于增强检索到的知识和对话历史，以生成更知识化的响应。

传统基于检索的方法有很明显的缺陷：

首先，语料库中的知识检索需要一个模型来搜索大量数据，这需要大量的内存资源来存储整个知识库，并需要额外的处理时间来检索知识和进行进一步的知识选择；
第二，向语言生成模型添加知识作为附加上下文也会导致大量计算开销，这会减慢语言生成过程。

对话生成的过程，其实跟日常对话中的场景类似，不会有人愿意花很长时间等一个人回复吧，所以生成效率很重要！！！

方法（模型）

本文通过使用与训练语言模型中的隐性知识来解决基于知识的对话挑战，作为开放领域聊天场景下的知识概念化过程。与图1所示的现有工作方案相比，绕过了检索步骤，提出了一个端到端的框架KnowExpert，将知识库注入预先训练的LMs(language models)的内存中，并利用潜在主题整合所学知识，以生成基于知识的对话。在该模型中，轻量级适配器连接在预训练的GPT-2中，充当知识专家。

模型结构：

WX20220321-105809@2x

任务定义

对话数据集：${D^n}^N_{n=1}$

第$t$轮对话历史：$Dt = {(U_i, S_i)}^t{i=1}$，其中$U_t$表示用户对话，$S_t$表示系统响应。

语料库：${K_m}^M-{m=1}$，其中$K_m$表示知识片。

输入：$Xt= (D{t−1}, U_t)$

通过向模型参数$Θ$中注入知识来绕过检索过程，以仅基于对话历史生成响应：$\tilde st= fΘ(X_t)$

KnowExpert

在响应生成过程中，通过主题信息的引导，引入主题模型来唤起存储在GPT-2中的知识。

KnowExpert有两部分组成：

a GPT-2 with lightweight adapters
a contextual topic model

GPT-2 with Adapters

为了与知识相结合，将轻型适配器插入每个GPT-2层。适配器具有两层线性结构，能够快速适应目标。给定GPT-2 第$i$层的隐藏表示，表示为$H_i∈ R^{j×h}$，其中$h$和j分别是隐藏维度和当前生成步骤，适配器可以表示为：

LN(·) is layer normalization

插入L个knowledge adapters，充当不同主题领域的知识专家

Topic Modeling

在KnowExpert中，主题模型用于在响应生成过程中向GPT-2通知更相关的“主题”，从而归纳出更适合上下文的知识。采用了上下文主题模型（CTM），其性能优于传统的主题模型。CTM将预先训练好的Sentence-Transformers嵌入表示与神经主题模型Neural-ProdLDA相结合，后者利用词袋（BoW）实现更连贯的表示。在给定知识库的情况下，以L个主题簇的数目训练主题模型。

一旦训练完成，话题模型将用于获得对话历史中pre-clustered topics的概率分布。这些概率被用作知识专家的相似性权重$w=(w_1，w_2，…，w_L)$，以计算其隐藏状态的加权和，如图2所示。

W在两个不同的设置，在这两种设置下训练的模型分别表示为$KE_w \ KE_o$。