Attention Is All You Need

应用于NLP的机器翻译问题。

任务

由于RNN的递归结构，导致它无法并行计算，RNN以及他的衍生模型最大的缺点就是计算缓慢。并且缺乏对全局信息的理解。因此提出了完全基于attention的Transformer模型。

Transformer模型是纯attention模型，完全依赖attention机制来描述输入与输出的全局依赖。

Encoder与Decoder堆叠

注意力机制：将一个query和一个key-value pairs，映射到正确的输入。

$Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt {d_k}})V$

输入：$d_k$维的query、key、$d_v$维的value

MatMul：计算query和各个key的点积

Scale：除以$\sqrt {d_k}$ 归一化

softmax：获得权重

MatMul：和value相乘得到输出

多头注意力机制

参数不共享

$head_i=Attention(QW^Q_i,KW^K_i,VW^V_i)$ $MultiHead(Q,K,V)=Concat(head1,⋯,headh)W^O$

用h个不同的线性变换分别将$d_{model}$维的key、value、query映射成$d_k$维、$d_k$维和$d_v$维

代入注意力机制，产生$h×d_v$维输出，然后拼起来

再用一个线性变换得到最终的输出。

Position-wise 前向神经网络

$FFN(x)=max(0,xW_1+b_1)W_2+b_2$

由两个线性变换和ReLU激活函数组成。

位置编码

论文中的位置编码是根据下述公式计算得到的。

$PE_{(pos,2i)}=sin(pos/10000^{2i/d_{model}})$ $PE_{(pos,2i+1)}=cos(pos/10000^{2i/d_{model}})$

本文的模型结构没有使用任何递归结构或卷积结构，为了让模型能使用序列的顺序，必须引入某种能表达输入序列每个部分的绝对或相对位置的信息。
位置编码：在送入encoder和decoder之前，先对输入进行编码，编码后的向量维度是$d_{model}$，和embedings具有相同的维度，因此可以相加。
通过结合位置向量和词向量，就给每个词都引入了一定的位置信息，这样 Attention 就可以分辨出不同位置的词了。
选择正弦曲线版本是因为它可以使模型推断出比训练过程中遇到的序列长度更长的序列长度。