Transformer 模型详解

Transformer 的整体结构

Transformer 的工作流程大体如下:

获取输入句子中每个单词的表示向量 X, 它由单词的 Embedding 和单词位置的 Embedding 相加得到. 如下图所示, 每一行是一个单词的表示向量.
将得到的单词表示向量矩阵传入 Encoder, 经过 6 个 Encoder block 后得到句子所有单词的编码信息矩阵 C. 如下图所示, 单词向量矩阵用 $X_{n \times d}$ 表示, 其中 $n$ 是句子中单词的个数, $d$ 是表示向量的维度 (论文中 $d = 512$ ). 每个 Encoder block 输出矩阵的维度与输入是一致的.
将编码信息矩阵 C 传入 Decoder 中, Decoder 会依次根据当前翻译过的 $1 \sim i$ 个单词翻译下一个单词 $i + 1$ . 如下图所示, 在翻译到单词 $i + 1$ 时, 需要将 $i + 1$ 及之后的单词 Mask 掉.

将 Transformer 应用到翻译场景的动效.

Transformer 的内部结构

这是 Transformer 细化的内部结构图, 左侧为 Encoder block, 右侧为 Decoder block. 红色圈中的部分为 Multi-Head Attention, 它由多个 Self-Attention 组成. 可以看到 Encoder block 包含一个 Multi-Head Attention, 而 Decoder block 包含两个, 其中一个用到 Masked. Multi-Head Attention 上方还包括一个 Add & Norm 层, Add 表示残差连接 (Residual Connection), 用于防止网络退化, Norm 表示 Layer Normalization.