BERT（Encoder-only，语义理解）：使用可学习位置编码，最大长度固定为512；因为 BERT 是双向理解，需要精准捕捉前后 Token 的位置关联，可学习编码能更好适配复杂语义；
GPT（Decoder-only，文本生成）：早期使用正弦余弦编码，后期（GPT-3及以后）改用可学习位置编码；因为 GPT 是自回归生成，需要明确“已生成 Token 的顺序”，可学习编码能提升生成的连贯性。

共同点：没有位置编码，自注意力机制就会变成“无序关联”，模型无法区分语序，无论是理解还是生成，都会彻底失效。

第二部分：Feed Forward 网络—— 强化语义特征提取

一、核心定位：Feed Forward 网络是什么？

Feed Forward 网络（前馈神经网络），是 Transformer 中“负责特征加工”的核心组件——它的作用，是对自注意力机制输出的语义表示向量，进行进一步的非线性映射和特征提取，让模型能捕捉到更复杂的语义规律。

我们可以这样理解 Transformer 中“自注意力”与“Feed Forward”的分工：

自注意力机制：负责“建立关联”—— 捕捉 Token 之间的全局语义关联，把分散的 Token 信息整合为初步的语义表示；
Feed Forward 网络：负责“加工特征”—— 对初步的语义表示进行“深加工”，提取更复杂、更细致的语义特征，让模型能更好地理解词义、句式和语义逻辑。

通俗类比：自注意力机制就像“收集素材”，把所有相关的信息汇总到一起；Feed Forward 网络就像“加工素材”，把汇总的素材进行筛选、提炼、整合，变成更有价值的内容。

关键提醒：Feed Forward 网络是“逐 Token 独立处理”的—— 每个 Token 的特征加工，不依赖其他 Token，这与自注意力的“全局关联”形成互补，既保证了全局逻辑，又能精准优化单个 Token 的特征。

二、核心结构：Feed Forward 网络的极简拆解

Transformer 中的 Feed Forward 网络，结构非常固定，无论 Encoder 还是 Decoder 层，其内部的 Feed Forward 网络结构完全一致，核心由“两层线性变换+一个激活函数”组成，简化结构如下：

输入向量 → 第一层线性变换（升维） → 激活函数（非线性映射） → 第二层线性变换（降维） → 输出向量

逐一步拆解，结合此前学过的知识点，无需复杂公式：

1. 第一层线性变换（升维）

核心作用：将自注意力输出的语义表示向量，从“语义关联维度”提升到“特征提取维度”—— 简单来说，就是“扩大向量维度，为后续提取复杂特征提供空间”。

举例：假设自注意力输出的向量维度是512，第一层线性变换会将其升维到2048（通常是输入维度的4倍），让模型有足够的“空间”去捕捉复杂的语义特征。

2. 激活函数（非线性映射）

这是 Feed Forward 网络的核心，负责“注入非线性能力”—— 因为语言的语义规律是复杂的、非线性的（如多义词、歧义句），线性变换无法捕捉这种复杂关系，必须通过激活函数实现非线性映射。

大模型中常用的激活函数（衔接此前知识点）：

GELU：BERT、GPT-2 等模型的主流选择，兼顾非线性和训练稳定性，比 ReLU 更适配大模型；
SwiGLU：GPT-3、GPT-4、LLaMA 等现代大模型的选择，在 GELU 基础上优化，能进一步提升模型的表达能力和训练效率。

关键：激活函数是 Feed Forward 网络“能提取复杂特征”的核心，没有激活函数，Feed Forward 就只是简单的线性变换，无法捕捉复杂语义。

3. 第二层线性变换（降维）

核心作用：将升维后、经过非线性映射的特征向量，降维回与输入向量相同的维度—— 因为后续的 LayerNorm、残差连接，需要与输入向量维度一致，保证整个 Transformer 层的结构连贯。

举例：将升维后的2048维向量，降维回512维，与自注意力输出的向量维度一致，方便后续的残差连接和归一化处理。

三、Feed Forward 网络的核心特点

结合 Transformer 架构和大模型应用，Feed Forward 网络有3个核心特点，必须掌握：

逐 Token 独立处理：每个 Token 的 Feed Forward 计算，不依赖其他 Token，能实现并行计算，不影响 Transformer 的高效性；
结构固定且统一：所有 Encoder 层、Decoder 层中的 Feed Forward 网络，结构完全一致（参数不共享），简化模型设计，提升训练效率；
与自注意力协同工作：自注意力负责全局关联，Feed Forward 负责局部特征加工，两者相辅相成，共同提升模型的语义捕捉能力—— 没有 Feed Forward，自注意力的关联信息无法被有效提炼，模型理解和生成能力会大幅下降。

四、Feed Forward 网络在 BERT/GPT 中的应用（无差异，重点记协同逻辑）

与位置编码不同，Feed Forward 网络在 BERT（Encoder-only）和 GPT（Decoder-only）中的结构、作用完全一致，核心差异仅在于“激活函数的选择”，重点记两者与自注意力、LayerNorm、残差连接的协同逻辑：

1. BERT（Encoder-only）中的协同逻辑

输入 Embedding + 位置编码 → 多头双向自注意力 → 残差连接 + LayerNorm → Feed Forward 网络 → 残差连接 + LayerNorm → 输出语义表示（用于理解任务）

关键：Feed Forward 网络对双向自注意力输出的语义关联信息进行加工，提炼更精准的语义特征，支撑文本分类、实体识别等理解任务。

2. GPT（Decoder-only）中的协同逻辑

输入 Embedding + 位置编码 → 多头单向自注意力（带掩码） → 残差连接 + LayerNorm → Feed Forward 网络 → 残差连接 + LayerNorm → 输出预测 Token（用于生成任务）

关键：Feed Forward 网络对单向自注意力输出的“已生成 Token 关联信息”进行加工，让模型能更精准地预测下一个 Token，提升生成的连贯性和逻辑性。

第三部分：位置编码与 Feed Forward 网络的协同作用（必看，打通认知）

位置编码和 Feed Forward 网络，虽然作用不同，但与自注意力机制、LayerNorm、残差连接一起，构成了 Transformer 层的完整逻辑，协同支撑大模型的理解和生成能力，核心协同逻辑如下：

位置编码：注入位置信息，解决自注意力“无序”的缺陷，让模型能理解语序带来的语义差异；
自注意力机制：捕捉 Token 之间的全局语义关联，生成初步的语义表示；
Feed Forward 网络：对初步语义表示进行非线性加工，提取更复杂的语义特征；
LayerNorm + 残差连接：稳定训练过程，避免梯度消失，保证位置编码、自注意力、Feed Forward 网络的输出能稳定传递，支撑深层 Transformer 架构。

一句话总结：位置编码给模型“辨序能力”，自注意力给模型“关联能力”，Feed Forward 给模型“加工能力”，三者协同，才让 Transformer 成为大模型的核心架构，让 BERT、GPT 能精准理解、高效生成。

第四部分：常见误区澄清（大模型学习者必看）

结合此前学习的知识点，澄清3个常见误区，避免理解偏差：

误区1：认为“位置编码需要每层都加”—— 错误。位置编码只在输入层加一次，注入一次位置信息即可；每层 Encoder/Decoder 只需处理“词义+位置”的融合向量，无需重复添加。

误区2：混淆“Feed Forward 网络和自注意力的作用”—— 自注意力负责“全局关联”（Token 之间的关系），Feed Forward 负责“局部加工”（单个 Token 的特征优化），两者分工明确、相辅相成，缺一不可。

误区3：认为“可学习位置编码一定比正弦余弦编码好”—— 不一定。可学习编码灵活性强、效果好，但外推性差；正弦余弦编码灵活性弱，但能处理超长文本，选型需根据任务场景（是否需要超长文本）决定。

第五部分：核心总结

一、位置编码核心

核心作用：给 Token 注入位置信息，解决自注意力“无序”的缺陷，让模型理解语序；
工作方式：生成与词向量同维度的位置向量，与词向量相加，仅在输入层加一次；
两大类型：正弦余弦编码（固定，外推性好）、可学习编码（主流，效果好）；
大模型应用：BERT、GPT 均以可学习编码为主，适配理解和生成任务。

二、Feed Forward 网络核心

核心作用：对自注意力输出的语义表示进行非线性加工，提取复杂语义特征；
核心结构：两层线性变换（升维→降维）+ 激活函数（GELU/SwiGLU）；
核心特点：逐 Token 独立处理，并行计算，与自注意力协同工作；
大模型应用：BERT、GPT 结构完全一致，仅激活函数可能有差异。

三、协同核心

位置编码（辨序）+ 自注意力（关联）+ Feed Forward（加工）+ LayerNorm/残差连接（稳定），构成 Transformer 核心逻辑，支撑大模型的理解和生成能力。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

大模型核心学习笔记-Transformer核心架构 05:位置编码(Positional Encoding)与 Feed Forward 网络详解

在 Transformer 架构中，自注意力机制是核心引擎，但仅凭自注意力，还无法支撑起大模型的语义理解和文本生成能力。

第一部分：位置编码（Positional Encoding）—— 给 Token 赋予“顺序感”

一、核心痛点：为什么需要位置编码？

二、核心原理：位置编码如何工作？

三、两种主流位置编码（大模型常用）

1. 正弦余弦位置编码（Sinusoidal Positional Encoding）

2. 可学习位置编码（Learnable Positional Encoding）

四、位置编码在 Transformer 中的位置与 BERT/GPT 差异

1. 位置编码的固定位置

2. BERT 与 GPT 中的位置编码差异

第二部分：Feed Forward 网络—— 强化语义特征提取

一、核心定位：Feed Forward 网络是什么？

二、核心结构：Feed Forward 网络的极简拆解

1. 第一层线性变换（升维）

2. 激活函数（非线性映射）

3. 第二层线性变换（降维）

三、Feed Forward 网络的核心特点

四、Feed Forward 网络在 BERT/GPT 中的应用（无差异，重点记协同逻辑）

1. BERT（Encoder-only）中的协同逻辑

2. GPT（Decoder-only）中的协同逻辑

第三部分：位置编码与 Feed Forward 网络的协同作用（必看，打通认知）

第四部分：常见误区澄清（大模型学习者必看）

第五部分：核心总结

一、位置编码核心

二、Feed Forward 网络核心

三、协同核心

最新文章

热门文章

随机文章

大模型核心学习笔记-Transformer核心架构 05:位置编码(Positional Encoding)与 Feed Forward 网络详解

在 Transformer 架构中，自注意力机制是核心引擎，但仅凭自注意力，还无法支撑起大模型的语义理解和文本生成能力。

第一部分：位置编码（Positional Encoding）—— 给 Token 赋予“顺序感”

一、核心痛点：为什么需要位置编码？

二、核心原理：位置编码如何工作？

三、两种主流位置编码（大模型常用）

1. 正弦余弦位置编码（Sinusoidal Positional Encoding）

2. 可学习位置编码（Learnable Positional Encoding）

四、位置编码在 Transformer 中的位置与 BERT/GPT 差异

1. 位置编码的固定位置

2. BERT 与 GPT 中的位置编码差异

第二部分：Feed Forward 网络—— 强化语义特征提取

一、核心定位：Feed Forward 网络是什么？

二、核心结构：Feed Forward 网络的极简拆解

1. 第一层线性变换（升维）

2. 激活函数（非线性映射）

3. 第二层线性变换（降维）

三、Feed Forward 网络的核心特点

四、Feed Forward 网络在 BERT/GPT 中的应用（无差异，重点记协同逻辑）

1. BERT（Encoder-only）中的协同逻辑

2. GPT（Decoder-only）中的协同逻辑

第三部分：位置编码与 Feed Forward 网络的协同作用（必看，打通认知）

第四部分：常见误区澄清（大模型学习者必看）

第五部分：核心总结

一、位置编码核心

二、Feed Forward 网络核心

三、协同核心

【26版物理步步高人教版学习笔记选择性必修第三册第二章1温度和温标

中药材化鞣质等其他化合物类学习笔记

最新文章

热门文章

随机文章