第一步：获取当前层输入（x）—— 输入可以是“位置编码后的融合向量”（第一层 Encoder），也可以是“上一层 Encoder 的输出”（深层 Encoder）；
第二步：当前层加工（F(x)）—— 将输入（x）送入当前层的核心组件（如多头自注意力层），进行语义特征加工，得到层输出（F(x)）；
第三步：残差连接（加法融合）—— 将输入（x）与层输出（F(x)）直接相加，得到“残差融合向量”（x + F(x)）；
第四步：归一化（LayerNorm）—— 将残差融合向量送入 LayerNorm 进行标准化，稳定向量分布，再送入下一个组件（如 Feed Forward 网络）；
第五步：循环迭代：Feed Forward 网络的输出，会再次经过“残差连接+LayerNorm”，然后传入下一层 Encoder/Decoder。

（三）通俗类比：更易理解残差连接的“捷径”作用

我们可以把 Transformer 的每一层，比作“一个加工车间”，输入（x）是“原材料”，层输出（F(x)）是“加工后的半成品”，残差连接就是“原材料的直达通道”：

没有残差连接：原材料必须经过车间的所有加工步骤，才能成为半成品，再传入下一个车间；如果加工步骤过多（层数过深），原材料的特性会被过度加工，甚至“变质”（梯度消失）；
有残差连接：原材料一部分进入车间加工（得到 F(x)），另一部分通过“直达通道”直接送到车间输出端，与半成品融合；这样既保留了原材料的核心特性（输入信息），又加入了加工后的价值（特征），同时“直达通道”能让“信号（梯度）”顺利反向传递，避免衰减。

（四）关键提醒：残差连接的核心要求

残差连接能正常工作，有一个核心前提：输入（x）的维度，必须与层输出（F(x)）的维度完全一致。

因为加法运算要求两个向量维度相同，否则无法直接相加。如果输入和输出维度不一致，会通过“1x1 线性变换”将输入维度调整为与输出维度一致，再进行加法融合（大模型中很少用到，因为 Transformer 层的输入输出维度通常是固定的，如 BERT 的512维）。

三、残差连接在 Transformer 中的具体应用（结合 BERT/GPT）

残差连接在 Transformer 中的应用非常固定，无论是 Encoder-only（BERT）、Decoder-only（GPT），还是完整的 Encoder-Decoder 架构，残差连接的位置和逻辑完全一致——每个核心组件（自注意力层、Feed Forward 网络）之后，都会跟随“残差连接+LayerNorm”。

（一）BERT（Encoder-only）中的残差连接应用

BERT 的 Encoder 层，是“残差连接+LayerNorm”应用的典型场景，完整流程如下（衔接此前知识点）：

输入 Embedding + 位置编码 → 多头双向自注意力层 → 残差连接（输入x + 自注意力输出F(x)） → LayerNorm → Feed Forward 网络 → 残差连接（上一步输出x + Feed Forward 输出F(x)） → LayerNorm → 下一层 Encoder

关键分析：

自注意力层后的残差连接：保证“位置编码后的融合向量”（输入x）能直接传递，避免自注意力的复杂计算导致输入信息衰减，同时让梯度能顺利反向传播；
Feed Forward 网络后的残差连接：保证“自注意力加工后的特征”（输入x）能直接传递，避免 Feed Forward 的非线性变换导致特征信息丢失；
残差连接与 LayerNorm 的配合：残差融合后进行归一化，稳定向量分布，避免梯度异常，支撑 BERT-Large 的24层 Encoder 稳定训练。

（二）GPT（Decoder-only）中的残差连接应用

GPT 的 Decoder 层，残差连接的逻辑与 BERT 完全一致，只是核心组件变为“多头单向自注意力（带掩码）”，完整流程如下：

输入 Embedding + 位置编码 → 多头单向自注意力层 → 残差连接 → LayerNorm → Feed Forward 网络 → 残差连接 → LayerNorm → 下一层 Decoder

关键分析：

GPT 的 Decoder 层数比 BERT 更多（如 GPT-3 有96层），对残差连接的依赖更强——没有残差连接，96层的深层结构会直接出现梯度消失，模型无法训练；残差连接的“捷径”，让每一层的输入信息和梯度都能顺利传递，保证 GPT 能稳定进行自回归生成。

（三）核心总结：残差连接的固定应用规律

无论 Transformer 架构如何变化，残差连接的应用都遵循一个固定规律：核心组件（自注意力 / Feed Forward）→ 残差连接（输入+输出）→ LayerNorm

记住这句话，就能快速定位残差连接在 Transformer 中的位置，理解其与其他组件的协同关系。

四、残差连接的核心作用（必记，贴合大模型实战）

结合 Transformer 架构和大模型应用，残差连接的核心作用有3点，也是其成为深层模型“标配”的原因：

1. 解决梯度消失，支撑深层训练

这是残差连接最核心的作用。通过“输入直接加到输出”的捷径，梯度可以通过这条捷径直接反向传播，避免在深层计算中不断衰减——即使模型有上百层（如 GPT-3 的96层），梯度也能顺利传递到浅层，保证参数能正常更新。

2. 避免模型退化，保留浅层有效特征

残差连接让“输入信息”（浅层特征）能直接传递到深层，避免深层的复杂计算覆盖浅层的有效特征——比如浅层捕捉到的“词义”特征，能通过残差连接传递到深层，与深层捕捉到的“语义关联”特征融合，提升模型的性能，避免层数增加导致的性能下降。

3. 加速模型收敛，提升训练效率

梯度稳定、特征不衰减，能让模型在训练过程中更快收敛——无需花费大量迭代步数去解决梯度消失问题，同时残差连接的加法运算简单，不会增加过多计算量，兼顾了模型性能和训练效率。

五、核心协同：残差连接与其他组件的关系（必看，打通认知）

残差连接不直接参与语义特征提取，但其是 Transformer 所有核心组件协同工作的“桥梁”，结合此前学过的知识点，梳理完整协同逻辑：

与位置编码、输入 Embedding 的协同：位置编码与词向量融合后，作为第一层的输入，通过残差连接传递到自注意力层，保证位置信息和词义信息不衰减；
与自注意力、Feed Forward 的协同：自注意力和 Feed Forward 负责特征加工，残差连接负责“保留原始输入”，避免加工过程中信息丢失，同时让梯度顺利传递；
与 LayerNorm 的协同：残差连接的融合向量，通过 LayerNorm 进行标准化，稳定向量分布，避免梯度异常，为下一个组件的加工提供稳定输入；
整体协同：位置编码（辨序）→ 自注意力（关联）→ 残差连接（保信息、传梯度）→ LayerNorm（稳分布）→ Feed Forward（加工）→ 残差连接（保特征）→ LayerNorm（稳输出），构成 Transformer 层的完整闭环，支撑深层大模型的稳定训练和高效工作。

六、常见误区澄清（大模型学习者必看）

很多初学者在学习残差连接时，会有3个常见误区，结合此前知识点澄清，避免理解偏差：

误区1：认为“残差连接是多余的，只要增加层数就能提升模型性能”—— 错误。没有残差连接，深层模型会出现梯度消失、模型退化，层数越多，性能越差；残差连接是“深层模型的前提”，没有它，就没有 BERT-Large、GPT-3 等超深层大模型。

误区2：混淆“残差连接和 LayerNorm 的顺序”—— 正确顺序是“核心组件 → 残差连接 → LayerNorm”，而非“LayerNorm → 残差连接”。这样做的原因是：先通过残差连接保留输入信息，再通过 LayerNorm 稳定分布，避免归一化破坏输入的原始特征。

误区3：认为“残差连接会增加模型计算量”—— 错误。残差连接只是简单的向量加法，计算量可以忽略不计，反而能通过解决梯度消失，减少训练迭代步数，整体提升训练效率。

七、核心总结（极简）

核心痛点：残差连接解决深层模型的“梯度消失”和“模型退化”，支撑超深层 Transformer 稳定训练；
核心原理：给信息传递加“捷径”，将当前层输入与层输出直接相加，实现信息和梯度的顺利传递；
核心要求：输入与层输出的维度必须一致，否则需通过线性变换调整；
应用规律：每个核心组件（自注意力、Feed Forward）后，都跟随“残差连接+LayerNorm”，BERT、GPT 逻辑完全一致；
核心价值：不参与特征提取，但却是深层大模型的“稳定器”，没有残差连接，就没有现代超大规模大模型。

最后提醒：残差连接是 Transformer 架构的“基石”，后续学习大模型微调、深层模型优化时，都会涉及残差连接的逻辑。现在理解清楚其核心作用和工作原理，能帮你更好地理解“为什么深层大模型能稳定工作”，为后续学习大模型底层优化打下基础。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

大模型核心学习笔记-Transformer核心架构 06:Transformer 核心组件——残差连接(Residual Connection)详解

一、核心痛点：为什么需要残差连接？

1. 梯度消失（Gradient Vanishing）

2. 模型退化（Model Degradation）

二、核心原理：残差连接如何工作？（极简拆解）

（一）核心定义：残差（Residual）是什么？

（二）工作步骤（结合 Transformer 层，必记）

（三）通俗类比：更易理解残差连接的“捷径”作用

（四）关键提醒：残差连接的核心要求

三、残差连接在 Transformer 中的具体应用（结合 BERT/GPT）

（一）BERT（Encoder-only）中的残差连接应用

（二）GPT（Decoder-only）中的残差连接应用

（三）核心总结：残差连接的固定应用规律

四、残差连接的核心作用（必记，贴合大模型实战）

1. 解决梯度消失，支撑深层训练

2. 避免模型退化，保留浅层有效特征

3. 加速模型收敛，提升训练效率

五、核心协同：残差连接与其他组件的关系（必看，打通认知）

六、常见误区澄清（大模型学习者必看）

七、核心总结（极简）

最新文章

热门文章

随机文章

大模型核心学习笔记-Transformer核心架构 06:Transformer 核心组件——残差连接(Residual Connection)详解

一、核心痛点：为什么需要残差连接？

1. 梯度消失（Gradient Vanishing）

2. 模型退化（Model Degradation）

二、核心原理：残差连接如何工作？（极简拆解）

（一）核心定义：残差（Residual）是什么？

（二）工作步骤（结合 Transformer 层，必记）

（三）通俗类比：更易理解残差连接的“捷径”作用

（四）关键提醒：残差连接的核心要求

三、残差连接在 Transformer 中的具体应用（结合 BERT/GPT）

（一）BERT（Encoder-only）中的残差连接应用

（二）GPT（Decoder-only）中的残差连接应用

（三）核心总结：残差连接的固定应用规律

四、残差连接的核心作用（必记，贴合大模型实战）

1. 解决梯度消失，支撑深层训练

2. 避免模型退化，保留浅层有效特征

3. 加速模型收敛，提升训练效率

五、核心协同：残差连接与其他组件的关系（必看，打通认知）

六、常见误区澄清（大模型学习者必看）

七、核心总结（极简）

(18)【读书笔记】《学习的本质》(13)

【26版物理步步高同步人教版学习笔记必修第一册第一章专题强化从x-t图像看速度

最新文章

热门文章

随机文章