Transformer

RNN 的主要问题：

梯度消失/爆炸：长距离依赖难以学习
顺序计算：无法并行处理序列
信息瓶颈：最后时刻隐藏状态需承载全部信息

Transformer 的改进：

并行计算：同时处理整个序列
自注意力机制：直接建立任意位置间的联系
位置编码：显式注入位置信息

结构

Transformer

图：Transformer 单元

Transformer

图：Transformer 的详细结构

输入
- 编码器输入
- 解码器输入
输出
- 线性层
- Softmax 层
编码器
- 由 N 个编码器层堆叠而成
- 每个编码器层由两个子层连接结构组成
- 第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
- 第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接
解码器
- 由 N 个解码器层堆叠而成
- 每个解码器层由三个子层连接结构组成
- 第一个子层连接结构包括一个带掩码的-多头自注意力子层和规范化层以及一个残差连接
- 第二个子层连接结构包括一个多头注意力子层（编码器到解码器）和规范化层以及一个残差连接
- 第三个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接

核心组件

自注意力机制（Self-Attention）

在传统的神经网络处理序列时，模型只能一步步按顺序处理，难以捕捉长距离依赖关系。自注意力机制就是为了让序列中的每个元素都能直接与序列中所有其他元素进行交互，无论它们直接的距离多远。

定义：

符号	维度	含义
$X$	$n \times d$	输入矩阵（n=序列长度，d=特征维度）
$Q$	$n \times d_{k}$	Query 矩阵（查询向量）
$K$	$n \times d_{k}$	Key 矩阵（键向量）
$V$	$n \times d_{v}$	Value 矩阵（值向量）
$W^{Q}, W^{K}, W^{V}$	$d \times d_{k} / d_{v}$	可学习参数矩阵

Attention (Q, K, V) = Softmax (\frac{Q K^{T}}{\sqrt{d_{k}}}) V

TIP

$Q$ 表示当前需要关注的信息或问题，用于确定输入序列中哪些部分与当前任务相关
$K$ 用于匹配查询，通过计算相似度判断输入序列中哪些元素与查询匹配
$V$ 存储实际信息

推导过程

将输入转换为 Query、Key、Value：

Q = X W^{Q}, K = X W^{K}, V = X W^{V}

计算注意力分数：

Scores = \frac{Q K^{T}}{\sqrt{d_{k}}}

生成注意力权重矩阵：

A = Softmax (Scores)

得到最终注意力输出：

Output = A V

带掩码自注意力层（Masked Multi-head attention）

编码时，对于 $t$ 时刻的预测，我们知道 $x_{1}, x_{2}, \dots, x_{t}, x_{t + 1}, \dots, x_{T}$ 全部的信息。

解码时，对于 $t$ 时刻的预测，我们仅知道 $x_{1}, x_{2}, \dots, x_{t - 1}$ 的信息。看不到后续的信息，因此需要将后续的信息遮掩起来。

Attention (Q, K, V) = Softmax (\frac{Q K^{T} ⊙ M}{\sqrt{d_{k}}}) V

多头注意力（Multi-Head Attention）

Transformer

MultiHead (Q, K, V) = Concat ({head}_{1}, \dots, {head}_{h}) W^{O}

其中：

{head}_{i} = Attention (Q W_{i}^{Q}, K W_{i}^{K}, V W_{i}^{V})

位置编码（Positional Encoding）

与 RNN 和 LSTM 等顺序算法不同，Transformer 没有内置机制来捕获句子中单词的相对位置，所以在 Transformer 的 encoder 和 decoder 的输入层中，使用了 Positional Encoding，使得最终的输入满足：

i n p u t = i n p u t_e m b e d d i n g + p o s i t i o n a l_e n c o d i n g

原始正弦编码公式：

P E_{(p o s, 2 i)} = \sin (\frac{p o s}{10000^{2 i / d}})

P E_{(p o s, 2 i + 1)} = \cos (\frac{p o s}{10000^{2 i / d}})

前馈网络（Feed Forward Network）

包括两个线性变换+ReLU 激活：

FFN (x) = ReLU (x W_{1} + b_{1}) W_{2} + b_{2}

计算复杂度

当输入批次大小为 $b$ ，序列长度为 $N$ ，词向量的维度（隐藏层的维度）为 $d$ 时， $l$ 层 transformer 的计算复杂度：

Self-Attention 层

FLOPs(Self-Attention) = 8 b N d^{2} + 4 b N^{2} d

计算 $Q$ 、 $K$ 、 $V$

输入输出

[b, N, d] \times [d, d] \to [b, N, d]

计算量为：

FLOPs = \underset{Q K V}{\underset{⏟}{3}} * b * (\underset{[N, d] \times [d, d] 乘法}{\underset{⏟}{N d d}} + \underset{[N, d] \times [d, d] 加法}{\underset{⏟}{N d d}}) = 6 b N d^{2}

TIP

矩阵加法运算考虑偏差 bias计算量就是 $N d d$ ，如果不考虑偏差就是 $N d (d - 1)$ ，但这个 $- 1$ 一般忽略不计。

计算 $Q K^{T}$

输入输出

[b, h, N, d_{k}] \times [b, h, d_{k}, N] \to [b, h, N, N]

$h$ 为注意力头数， $d_{k}$ 为每个头的维度， $h * d_{k} = d$ 。

FLOPs = b * h * (N^{2} d_{k} + N^{2} d_{k}) = 2 b N^{2} d

Softmax 与加权求和

Softmax 计算量较小，通常忽略。

输入输出

[b, h, N, N] \times [b, h, N, d_{k}] \to [b, h, N, d_{k}]

FLOPs = b * h * (N d_{k} N + N d_{k} N) = 2 b N^{2} d

输出投影

线性变换将结果映射回 $n$ 维：

输入输出

[b, N, d] \times [d, d] \to [b, N, d]

FLOPs = 2 b N d^{2}

MLP 层

FLOPs(MLP) = 16 b N d^{2}

线性层（扩展层）

输入输出

[b, N, d] \times [d, 4 d] \to [b, N, 4 d]

FLOPs = 8 b N d^{2}

线性层（压缩层）

输入输出

[b, N, 4 d] \times [4 d, d] \to [b, N, d]

FLOPs = 8 b N d^{2}

logits

Logits 层是将最终的 Transformer 隐藏层输出（维度 $d$ ）映射到词表大小 $V$ ，即一个线性投影：

输入输出

[b, N, d] \times [d, V] \to [b, N, V]

FLOPs(logits) = 2 b N d V

总的计算复杂度

FLOPs(Transformer) = l * (24 b N d^{2} + 4 b N^{2} d) + 2 b N d V

空间复杂度

大模型在训练过程中通常采用混合精度训练，中间激活值一般是 float16 或者 bfloat16 数据类型的。在分析中间激活的显存占用时，假设中间激活值是以 float16 或 bfloat16 数据格式来保存的，每个元素占了 2 个 bytes，dropout 操作的 mask 矩阵，每个元素只占 1 个 bytes。需要保存的中间激活占用显存大小计算如下：

Self-Attention 层

$Q$ 、 $K$ 、 $V$ 共享一个输入 $X$ ，则显存占用为 $2 b N d$
对于 $Q K^{T}$ ，两个张量形状都是 $[b, N, d]$ ，显存占用为 $4 b N d$
对于 $Softmax$ ，函数输入 $Q K^{T}$ 形状为 $[b, h, N, N]$ ，显存占用为 $2 b N^{2} h$
计算完 $Softmax$ ，会进行 dropout，需要保存一个 mask 矩阵，其形状与 $Q K^{T}$ 相同，显存占用为 $b N^{2} h$
计算 $Scores \cdot V$ ，二者占用显存大小为 $2 b N^{2} h + 2 b N d$
计算输出映射和一个 dropout 操作，二者占用显存大小为 $2 b N d + b N d$

综上，Self-Attention 层的显存占用为 $11 b N d + 5 b N^{2} a$

MLP 层

第一个线性层的输入占用显存 $2 b N d$
激活函数的输入占用显存 $8 b N d$
第二个线性层的输入占用显存 $8 b N d$
最后的 dropout 操作需要保存的 mask 矩阵占用显存 $b N d$

综上，MLP 层的显存占用为 $19 b N d$

LN

Self-Attention 层和 MLP 层分别对应了一个 LN，其输入占用显存为 $2 b N d + 2 b N d$

总的空间复杂度

l * (34 b N d + 5 b N^{2} h)

问题

Transformer 的计算复杂度为： $l * (24 b N d^{2} + 4 b N^{2} d) + 2 b N d V$ ，需要保存的中间激活占用显存大小为： $l * (34 b N d + 5 b N^{2} h)$ ，即 Transformer 模型的计算量和储存复杂度随着序列长度 N 呈二次方增长。

可以注意到， $4 b N^{2} d$ 和 $5 b N^{2} h$ 均产生于 Self-Attention 层。

⚛️ Next.js

📈 Seo

⚛️ React.js

🎨 css

📊 d3.js

🌿 Node.js

🌱 koa.js

🥘 GAMES101

🌌 three.js

🫧 WebGPU

🤖 Rasa

🥝 机器学习

🍿 强化学习

🍳 计算机视觉

🤖 智能体

🐬 mysql

🧪 jest

Transformer

结构

核心组件

自注意力机制（Self-Attention）

推导过程

带掩码自注意力层（Masked Multi-head attention）

多头注意力（Multi-Head Attention）

位置编码（Positional Encoding）

前馈网络（Feed Forward Network）

计算复杂度

Self-Attention 层

MLP 层

logits

总的计算复杂度

空间复杂度

Self-Attention 层

MLP 层

LN

总的空间复杂度

问题

Transformer ​

结构 ​

核心组件 ​

自注意力机制（Self-Attention） ​

推导过程 ​

带掩码自注意力层（Masked Multi-head attention） ​

多头注意力（Multi-Head Attention） ​

位置编码（Positional Encoding） ​

前馈网络（Feed Forward Network） ​

计算复杂度 ​

Self-Attention 层 ​

MLP 层 ​

logits ​

总的计算复杂度 ​

空间复杂度 ​

Self-Attention 层 ​

MLP 层 ​

LN ​

总的空间复杂度 ​

问题 ​

Transformer

结构

核心组件

自注意力机制（Self-Attention）

推导过程

带掩码自注意力层（Masked Multi-head attention）

多头注意力（Multi-Head Attention）

位置编码（Positional Encoding）

前馈网络（Feed Forward Network）

计算复杂度

Self-Attention 层

MLP 层

logits

总的计算复杂度

空间复杂度

Self-Attention 层

MLP 层

LN

总的空间复杂度

问题