当前位置：首页>学习笔记>多模态大模型学习笔记(二十二)——大模型微调全解:从全量调参到LoRA的参数高效训练实战

多模态大模型学习笔记(二十二)——大模型微调全解:从全量调参到LoRA的参数高效训练实战

2026-05-08 18:15:16

大模型微调全解：从全量调参到LoRA的参数高效训练实战

点击下方卡片，关注“人工智能陈小白”

视觉/大模型/图像重磅干货，第一时间送达!

随着大语言模型的快速发展，预训练大模型已具备强大的通用语言理解与生成能力，但要让模型真正适配人类指令交互、垂直领域任务，微调（Fine-Tuning）是不可或缺的核心环节。本文将系统拆解大模型微调的完整体系，从有监督微调（SFT）的定位，到全量调参与参数高效微调（PEFT）的核心差异，再到以LoRA为代表的主流PEFT方法的原理、工程化落地与进阶策略，全方位讲透大模型微调的核心方法论。

1 大模型微调在完整训练生态中的定位

1.1 大模型的完整训练链路

大模型从0到可用的对话模型，完整训练生态分为四个核心阶段，如下图所示：

在整个链路中，四个阶段的核心定位与资源需求如下：

1. 预训练阶段：大模型能力的根基，基于数千亿单词的原始文本语料训练语言模型，得到具备通用语言能力的基础模型。该阶段资源需求极高，需要至少千级GPU、月级训练时间，是大模型研发中成本最高的环节。
2. 有监督微调（SFT，Supervised Fine-Tuning）：让基础模型学会遵循人类指令的核心步骤，基于数万条人工标注的指令-答案对微调模型，得到SFT模型。相比预训练，SFT资源需求大幅降低，最多百级GPU、天级训练时间即可完成。
3. 奖励建模（RM）：基于百万级人工标注对比对，训练二分类奖励模型，用于判断模型输出的优劣，为后续强化学习提供奖励信号。
4. 基于人类反馈的强化学习（RLHF）：基于十万级用户指令，以奖励模型的输出为奖励信号，用强化学习算法进一步优化模型，让模型输出更贴合人类偏好。

SFT是整个链路中承上启下的关键环节——它将预训练模型的通用语言能力，转化为可交互、可执行人类指令的任务能力，也是绝大多数开发者落地大模型定制化的核心切入点。

2 SFT微调的两大核心范式：全量调参 vs 参数高效微调

SFT的核心是基于标注的指令数据，调整模型参数以适配指令遵循任务。根据参数调整的范围，分为全量调参（Full Fine-Tuning）和参数高效微调（PEFT，Parameter-Efficient Fine-Tuning）两大范式，两者的核心差异如下表所示：

2.1 全量调参（Full Fine-Tuning）

全量调参是最传统的微调范式，核心逻辑是：微调过程中，调整预训练模型的全部参数，包括预训练阶段学到的所有权重。

• 核心优势：理论上能更彻底地适配新任务，当标注数据量充足时，可达到更优的下游任务性能。
• 核心痛点：

1. 资源成本极高：需要大量GPU显存支撑，训练时间长，仅适合资源充足的机构与场景；
2. 灾难性遗忘：模型容易“忘记”预训练阶段学到的通用知识，泛化能力下降；
3. 部署成本高：每一个微调任务都需要保存一份完整的模型权重，多任务场景下存储成本极高。

• 适用场景：仅适合“大任务+大数据”的场景，比如通用大模型的基座SFT训练。

2.2 参数高效微调（PEFT）

PEFT是为解决全量调参的痛点而生的微调范式，核心逻辑是：冻结预训练模型的绝大部分原始参数，仅调整少量新增的、与任务相关的参数（通常仅为原模型参数量的0.1%~1%）。

• 核心优势：

1. 资源需求极低：显存占用通常仅为全量调参的十分之一甚至更低，普通消费级GPU即可运行，训练速度快，适合中小团队与个人开发者；
2. 保留通用能力：冻结了预训练主干权重，最大程度保留了模型的通用知识，不易出现灾难性遗忘，在数据量有限时表现更稳定；
3. 部署灵活：每个微调任务仅需保存新增的少量参数（通常仅几十MB），多任务场景下可快速切换适配，存储与部署成本极低。

• 适用场景：快速适配垂直领域小任务、资源有限的开发场景、多任务并行微调的场景，是目前大模型定制化落地的主流方案。

3 SFT微调的工程化落地核心环节

无论是全量调参还是PEFT，SFT的效果上限由数据质量决定。工程化落地中，SFT微调的核心环节包括样本设计、模板化处理、数据清洗与校验三大步骤。

3.1 微调样本的三元组设计

SFT的训练样本标准格式为指令三元组，即instruction（指令）、input（输入）、output（输出）三个核心字段，覆盖四大类核心场景，如下图所示：

3.1.1 基础问答场景

指令本身就是完整的问题，无额外补充输入，input字段为空。示例：

{"instruction":"什么是猫科动物","input":"","output":"猫科动物是哺乳纲食肉目猫科动物的统称，大多为食肉动物，具备敏锐的听觉、视觉与捕猎能力，常见的家猫、老虎、狮子等均属于猫科动物。"}

3.1.2 信息查询场景

指令包含明确的信息查询需求，无额外补充输入，input字段为空。示例：

{"instruction":"故宫开放的时间是几点？需要提前预约吗","input":"","output":"北京故宫每年4月1日至10月31日采用旺季开放时间，开放时间为8:30-17:00，16:00停止入院；11月1日至次年3月31日为淡季，开放时间为8:30-16:30，15:30停止入院。故宫实行全网实名预约制，所有观众均需提前在官方渠道预约购票，不支持现场购票。"}

3.1.3 多轮对话承接场景

input字段为上一轮的对话上下文，指令为当前用户的新问题，用于让模型学习多轮对话的上下文承接能力。示例：

{"instruction":"如果我带一个6岁孩子去，有没有适合的参观路线","input":"[{\"human\": \"故宫开放的时间是几点？需要提前预约吗\", \"assistant\": \"北京故宫每年4月1日至10月31日采用旺季开放时间...\"}]","output":"带着6岁孩子参观故宫，推荐以轻松路线为主，避免长时间步行：从午门进入，先参观太和殿、中和殿、保和殿三大殿，随后向东前往珍宝馆与钟表馆，这两个展馆有大量精美展品，能吸引孩子的注意力；之后沿御花园参观，最终从神武门离开，全程可控制在3小时左右，中途可在御花园休息。"}

3.1.4 文本处理任务场景

input字段为待处理的具体文本内容，指令为对文本的处理要求，比如总结、翻译、润色、提取信息等，是垂直领域任务最常用的格式。示例：

{"instruction":"请把这段文字总结成3句话，重点突出核心结论","input":"2024年全国新能源汽车销量达949.5万辆，同比增长34.5%，市场渗透率提升至46.2%。其中比亚迪以342.8万辆的销量稳居第一，市场占比达36.1%，其核心优势在于全产业链自研带来的成本控制与技术迭代能力。专家预测，2025年新能源汽车市场渗透率将突破50%，行业竞争将从价格战转向技术与智能化体验的竞争。","output":"1. 2024年全国新能源汽车销量达949.5万辆，同比增长34.5%，市场渗透率提升至46.2%；2. 比亚迪2024年新能源汽车销量稳居行业第一，市场占比超3成，核心优势来自全产业链自研能力；3. 专家预测2025年新能源汽车渗透率将突破50%，行业竞争核心转向技术与智能化体验。"}

3.2 样本的模板化与占位符设计

为了保证模型训练的稳定性，提升模型的跨任务泛化能力，需要对样本进行模板化与标准化处理，核心设计如下图所示：

3.2.1 统一指令模板

所有单轮样本统一使用标准化的三元组模板，确保模型输入格式的一致性：

instruction : {instruction}, input : {input}, output : {output}

3.2.2 多轮对话场景模板

多轮对话样本采用固定的角色模板，明确区分用户（human）与助手（assistant）的对话轮次，让模型学习对话的角色边界与上下文承接逻辑：

human : {user_turn_1}, assistant : {assistant_turn_1},human : {user_turn_2}, assistant : {assistant_turn_2}...

3.2.3 跨任务能力模板

针对翻译、分类、提取等标准化任务，固定指令的表述方式，让模型快速学习同类任务的处理逻辑，提升跨任务的泛化能力，比如翻译任务的固定模板：

instruction : "把下边的文本翻译成英语", input : {中文文本}, output : {英文文本}

3.2.4 占位符设计

针对同类不同细节的任务，使用占位符来泛化样本，让模型学习任务的核心逻辑，而非特定的细节内容，比如代码生成任务的占位符模板：

instruction : 用C++实现{功能描述},input : 要求{具体约束，比如时间复杂度O(n)},output : {代码}

3.3 数据清洗与一次性校验

低质量的训练数据会直接导致微调效果变差，甚至让模型学到错误的知识，因此数据清洗与校验是SFT微调中不可或缺的环节，核心流程如下图所示：

3.3.1 低质量数据样本过滤

• 过滤无意义内容：去除乱码、重复字符、与任务无关的文本、无意义的灌水内容；
• 修复错误输出：校验输出内容的准确性，修正事实性错误，比如“巴西的首都是里约热内卢”这类错误内容；
• 去除冗余信息：过滤输入与输出无关的内容，确保输出严格响应指令，不包含无关信息；
• 平衡样本分布：避免某一类任务的样本占比过高，确保模型在多任务上均衡学习，不会出现能力偏科。

3.3.2 样本逻辑一致性校验

• 指令与输出的一致性：确认输出内容真正响应了指令的要求，没有答非所问；
• 输入与输出的关联性：如果输入中包含了具体的参考信息，确认输出严格基于输入内容生成，而非凭空捏造；
• 格式一致性：确保同类任务的输出格式统一，比如日期格式统一为“YY-MM-DD”、列表格式统一等，提升模型输出的稳定性；
• 价值观对齐：过滤带有偏见、歧视、有害内容的样本，确保模型学习到符合伦理规范的内容。

3.3.3 自动化与人工结合的校验方案

• 自动化工具：基于规则或小模型，对全量样本进行初步过滤，快速筛除低质量、有明显错误的样本；
• 人工校验：针对医疗、金融、政务等关键领域，进行人工二次校验，确保样本的准确性与合规性。

4 主流PEFT方法详解

经过多年的发展，业界已经推出了多种PEFT方法，不同方法的核心思路、适用场景各有差异，主流方法的对比如下图所示：

4.1 早期PEFT方法

4.1.1 Adapter-Tuning

• 提出时间与团队：2019年，Google
• 核心操作：在Transformer模型的各层之间插入小的适配器（Adapter）网络，训练时冻结主干模型，仅训练适配器的参数。适配器通常由两个降维-升维的线性层组成，参数量极小。
• 使用场景：专业领域的复杂任务场景，适配性强，是早期最主流的PEFT方案。

4.1.2 P-Tuning

• 提出时间与团队：2021年，清华大学
• 核心操作：在输入序列中插入可训练的虚拟token，仅训练这些虚拟token的嵌入向量，冻结主干模型的全部参数。
• 使用场景：自然语言理解、分类任务，在中文大模型的分类任务中表现优异。

4.1.3 Prompt-Tuning

• 提出时间与团队：2021年，Google
• 核心操作：为每一个下游任务训练专属的提示模板token，仅更新提示模板中的特定token参数，冻结主干模型。
• 使用场景：多任务分类场景，适合大规模多任务并行适配。

4.1.4 Prefix-tuning

• 提出时间与团队：2021年，斯坦福大学
• 核心操作：在Transformer每一层的输入前缀添加可训练的token序列，仅训练这些前缀token，冻结主干模型。
• 使用场景：文本生成类任务，比如摘要、翻译、对话生成。

4.1.5 BitFit

• 提出时间与团队：2021年，以色列团队
• 核心操作：仅训练Transformer模型中的偏置参数（bias），其余所有参数全部冻结，是参数量最小的PEFT方案之一。
• 使用场景：简单任务、快速验证场景，适合快速验证数据与任务的可行性。

4.2 核心主流方法：LoRA（Low-Rank Adaptation，低秩适配）

LoRA是目前业界应用最广泛的PEFT方法，由微软团队于2022年提出，其核心思路是：用低秩矩阵分解来近似模型微调过程中的权重更新量，仅训练低秩矩阵的参数，冻结主干模型权重。

4.2.1 LoRA的核心原理与公式

Transformer模型的核心是自注意力机制，其中的线性层（全连接层）是参数的主要载体。对于一个预训练好的线性层，其前向传播公式为：$$h = W_0 x$$其中，是预训练好的权重矩阵，是输入向量，是输出向量。

在全量微调中，我们会更新整个，得到微调后的权重，其中是权重的更新量。

而LoRA的核心创新是，将更新量做低秩分解，即：$$\Delta W = BA$$其中，，，是秩，且（通常r取8、16、32、64，远小于模型隐藏层维度d）。

此时，线性层的前向传播公式变为：$$h = W_0 x + BA x$$训练过程中，被完全冻结，不参与梯度更新，仅训练矩阵A和B的参数。

推理阶段，我们可以将训练好的BA矩阵合并到原权重中，得到，此时前向传播公式与原模型完全一致，不会增加任何推理延迟，这是LoRA相比其他PEFT方法的核心优势之一。

4.2.2 LoRA的核心优势

• 全场景适配：可适配所有Transformer架构的大模型，无论是分类、生成、对话等场景均有优异表现，适配模型规模可达13B；
• 无推理延迟：推理时可将低秩矩阵合并到原模型，不会增加任何推理耗时，不影响模型的推理性能；
• 显存占用极低：仅训练少量低秩矩阵参数，显存需求远低于全量调参，消费级GPU即可完成7B、13B模型的微调；
• 效果媲美全量调参：在绝大多数场景下，LoRA的微调效果可达到甚至超过全量调参，同时不会出现灾难性遗忘；
• 部署灵活：单个LoRA权重文件通常仅几十MB，可快速切换、合并多个LoRA权重，适配多任务场景。

4.2.3 LoRA 的核心超参数详解

理解 LoRA 的核心超参数，是调优 LoRA 微调效果、平衡训练成本与模型效果的关键。LoRA 的核心可配置参数分为秩 r、缩放因子 alpha、丢弃率 dropout 三大类，核心定义与工程化逻辑如下：

4.2.3.1 秩 r

秩 r 是 LoRA 最核心的超参数，决定了低秩矩阵 A 和 B 的维度，直接控制可学习参数的总规模。参数量计算公式：LoRA可学习参数规模 ≈ r*(输入维度 + 输出维度)核心影响逻辑：r 越小，可训练的参数量越少，训练速度越快、显存占用越低，但模型能捕捉的任务特征越有限，可能无法适配复杂任务；r 越大，可学习的特征维度越丰富，对下游任务的拟合能力越强，但参数量会随之上升，训练成本增加，同时在小数据集场景下有过拟合的风险。工程化推荐值：通用对话、简单分类、轻量垂直场景，r 通常取 8、16、32；代码生成、专业领域长文本生成、复杂推理等任务，r 可提升至 64、128。

4.2.3.2 缩放因子 alpha

alpha 是 LoRA 的权重缩放因子，核心作用是平衡低秩矩阵的更新幅度，保证训练过程中的梯度稳定，避免梯度爆炸或梯度消失。核心计算逻辑：在 LoRA 的前向传播中，低秩矩阵的输出会乘以 alpha / r 的缩放系数。当 alpha 设置为与 r 相等时，缩放系数为 1，此时低秩矩阵的更新幅度与原模型的梯度尺度完全对齐，是最稳妥的梯度稳定配置。工程化推荐值：通用场景下默认设置为与 r 相等，是业界最通用的配置；如需放大 / 缩小低秩分支的权重，可按比例缩放 alpha 值。

4.2.3.3 丢弃率 dropout

dropout 即随机丢弃率，核心作用是防止模型过拟合，提升微调后模型的泛化能力。核心逻辑：在训练过程中，随机丢弃一部分输入到低秩矩阵的特征，强制模型学习更鲁棒的通用任务特征，避免过度拟合训练集中的噪声与特例。工程化推荐值：通用场景通常取 0.05-0.1；数据量较少、容易过拟合的场景，可提升至 0.2~0.3；数据量充足、任务简单的场景，可设置为 0，加快训练收敛速度。

4.2.4 LoRA 的工程化配置：目标层选择与冻结策略

除了超参数调优，LoRA 的微调效果还取决于目标层的选择与冻结策略，这是工程落地中最容易被忽略、却直接决定微调成败的关键环节。

4.2.4.1 目标层选择

LoRA 的低秩适配器可以插入到 Transformer 模型的任意线性层，不同层的核心能力不同，适配效果差异极大，主流可选目标层与适配逻辑如下：注意力层的 Q/K/V 投影矩阵：Transformer 自注意力层的核心，负责输入文本的特征编码与注意力权重计算，是 LoRA 最优先选择的适配层。其中，Q/K 层（查询 / 键投影矩阵）是优先级最高的选择，绝大多数场景下，仅适配 Q/K 层即可达到优异的微调效果，同时控制参数量。输出投影矩阵 O：自注意力层的输出投影层，负责注意力特征的维度变换、空间映射与特征提取，适合对生成效果有精细化要求的下游操作，可作为 Q/K 层的补充适配层。MLP（多层感知机）层：Transformer 的前馈神经网络层，负责特征的非线性变换与深度语义编码。对于代码生成、专业领域推理、数学计算等需要强特征变换能力的任务，在 Q/K 层基础上增加 MLP 层的 LoRA 适配，往往能带来显著的效果提升。

4.2.4.2 冻结策略

LoRA 的冻结策略分为两类，核心原则是最大化保留预训练模型的通用能力，仅适配任务相关的特征，避免破坏模型的基础能力：全部冻结：冻结预训练主干模型的所有权重，仅训练 LoRA 低秩适配器的参数，这是最通用、最推荐的冻结策略。该策略完全保留了预训练模型的基础能力，不会出现灾难性遗忘，同时训练成本最低，适配绝大多数场景。部分冻结：仅冻结模型的底层主干权重，放开顶层部分 Transformer 层的参数，配合 LoRA 一起训练。该策略仅适合数据量极大、任务与预训练目标差异极大的场景，使用时需极其谨慎，否则极易破坏预训练模型的基础能力，出现灾难性遗忘。

4.3 LoRA的进阶方案：QLoRA

QLoRA由华盛顿大学团队于2023年提出，是在LoRA基础上的进阶优化方案，解决了超大模型（>13B）的微调难题。

• 核心操作：在LoRA的基础上，引入4-bit量化与双量化技术，将预训练模型量化为4-bit精度并冻结，仅训练低秩的LoRA适配器参数。
• 核心优势：在不损失模型性能的前提下，进一步大幅降低显存需求，可在单张消费级GPU上完成65B、70B超大模型的微调，同时效果与全量16-bit微调持平。
• 使用场景：超大模型（>13B）的微调场景，是目前落地超大模型定制化的首选方案。

4.4 不同预训练目标的 PEFT 适配策略

PEFT 的核心不是盲目 “调参数”，而是先看懂模型的预训练任务逻辑，再让 PEFT 的配置匹配这个逻辑。不同预训练目标训练出来的模型，其核心能力、参数分布、语义编码逻辑天差地别，选错适配策略会直接导致微调效果差、甚至破坏模型的基础能力。主流的预训练目标分为三类，对应的 PEFT 适配策略如下表所示：

针对三类模型的核心适配逻辑详解：

1. MLM 掩码语言模型：这类模型的核心能力是语义理解，预训练阶段通过 “掩码 token 预测” 任务，学习了极强的文本语义表征能力。因此 PEFT 适配时，重点调整 Q/K + 输出层即可，必须全冻结主模型，绝对不能解冻主干参数，否则会直接破坏模型预训练学到的核心语义理解能力，导致下游任务效果大幅下降。
2. Denoising 去噪重建模型：这类模型采用编码器 - 解码器（Seq2Seq）架构，核心能力是文本的去噪、重建、翻译、摘要等序列到序列任务。PEFT 适配时，需要同时覆盖编码器和解码器的 QK 层，保证编码器的语义理解能力和解码器的生成能力同时适配下游任务；同时可适当提高学习率，加快模型对下游任务的适配速度。
3. Causal LM 自回归语言模型：这是目前主流大语言模型（GPT、Llama、DeepSeek 等）采用的预训练目标，核心能力是自回归文本续写与生成，也是对话大模型的主流基座。PEFT 适配时，核心调整注意力层的 QK 层，对于代码生成、专业推理等复杂任务，需增加 MLP 层的适配，同时兼顾参数量与生成流畅度，是目前 PEFT 落地最主流的模型类型。除此之外，针对 “指令对齐” 类的微调任务，必须在生成类模型（Causal LM）上使用 PEFT，同时严格适配模型的官方对话格式模板，才能保证指令对齐的效果，避免微调后模型出现对话格式混乱、无法稳定遵循指令的问题。

4.5 其他轻量化PEFT方案：IA³

IA³由爱尔兰团队于2023年提出，是极致轻量化的PEFT方案。

• 核心操作：不对权重矩阵做修改，仅对模型激活函数的输出乘以可训练的缩放因子，仅训练这些缩放因子的参数，参数量比LoRA更小。
• 核心优势：显存需求极低，训练速度极快，适合资源严重受限的场景。
• 使用场景：边缘设备、端侧模型的微调，资源严重受限的场景。

5 PEFT的进阶优化策略

在基础PEFT方法之上，业界还推出了多种进阶优化策略，进一步提升微调效果、降低训练成本，主要分为舍去策略与组合策略两大类，如下图所示：

5.1 舍去策略

舍去策略的核心是，在训练过程中仅保留对任务最关键的参数，舍去冗余参数，进一步降低训练成本，提升模型泛化能力。

5.1.1 DARE（动态丢弃）

核心逻辑：按比例随机丢弃适配器的参数，对保留的参数进行缩放校准，在不损失效果的前提下，降低适配器的参数量，同时缓解过拟合问题，提升模型的泛化能力。

5.1.2 Child-tuning

核心逻辑：仅选择模型中“对任务敏感的核心参数”（主要是注意力头的相关参数）进行训练，冻结其余所有参数，进一步降低训练的参数量，同时保留模型的通用能力。

5.2 组合策略

组合策略的核心是，将多种PEFT方法结合，或与其他大模型优化技术结合，实现更优的微调效果与更强的任务适配能力。

5.2.1 LoRA+MoE

核心逻辑：部署多组“LoRA专家”，每个LoRA专家适配一类子任务，通过门控网络，根据输入的指令动态选择适配的LoRA专家，实现多任务场景下的效果最优，同时保留PEFT的轻量化优势。

5.2.2 UniPELT

核心逻辑：集成了LoRA、Adapter-Tuning、Prompt-tuning多种PEFT子模块，通过门控网络，为不同的任务、不同的模型层自动选择最优的子模块，实现自适应的参数高效微调，在复杂多任务场景下表现优异。

5.2.3 QLoRA+知识蒸馏

核心逻辑：先用QLoRA对超大模型进行微调，得到效果优异的大模型适配器，再通过知识蒸馏技术，将大模型的能力蒸馏到小模型中，最终部署小模型，兼顾了微调效果与部署的推理性能，是落地端侧、边缘场景的常用方案。

6 总结

大模型微调是预训练大模型落地到具体场景的核心环节，从全量调参到以LoRA为代表的参数高效微调，技术的发展大幅降低了大模型定制化的门槛。

• 对于资源充足的机构，全量调参可在大数据场景下实现最优的任务适配；
• 对于中小团队与个人开发者，以LoRA、QLoRA为核心的PEFT方案，是落地大模型定制化的首选，在极低的资源成本下，即可实现媲美全量调参的效果；
• 而SFT微调的效果上限，始终由数据质量决定，标准化的样本设计、严格的数据清洗与校验，是微调成功的核心前提。

未来，随着大模型技术的持续发展，参数高效微调技术也会持续迭代，进一步降低大模型的落地门槛，让大模型能更便捷地适配千行百业的具体场景。

—THE END—

欢迎同学加入人工智能圈交流群

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

多模态大模型学习笔记(二十二)——大模型微调全解:从全量调参到LoRA的参数高效训练实战

大模型微调全解：从全量调参到LoRA的参数高效训练实战

1 大模型微调在完整训练生态中的定位

1.1 大模型的完整训练链路

2 SFT微调的两大核心范式：全量调参 vs 参数高效微调

2.1 全量调参（Full Fine-Tuning）

2.2 参数高效微调（PEFT）

3 SFT微调的工程化落地核心环节

3.1 微调样本的三元组设计

3.1.1 基础问答场景

3.1.2 信息查询场景

3.1.3 多轮对话承接场景

3.1.4 文本处理任务场景

3.2 样本的模板化与占位符设计

3.2.1 统一指令模板

3.2.2 多轮对话场景模板

3.2.3 跨任务能力模板

3.2.4 占位符设计

3.3 数据清洗与一次性校验

3.3.1 低质量数据样本过滤

3.3.2 样本逻辑一致性校验

3.3.3 自动化与人工结合的校验方案

4 主流PEFT方法详解

4.1 早期PEFT方法

4.1.1 Adapter-Tuning

4.1.2 P-Tuning

4.1.3 Prompt-Tuning

4.1.4 Prefix-tuning

4.1.5 BitFit

4.2 核心主流方法：LoRA（Low-Rank Adaptation，低秩适配）

4.2.1 LoRA的核心原理与公式

4.2.2 LoRA的核心优势

4.2.3 LoRA 的核心超参数详解

4.2.3.1 秩 r

4.2.3.2 缩放因子 alpha

4.2.3.3 丢弃率 dropout

4.2.4 LoRA 的工程化配置：目标层选择与冻结策略

4.2.4.1 目标层选择

4.2.4.2 冻结策略

4.3 LoRA的进阶方案：QLoRA

4.4 不同预训练目标的 PEFT 适配策略

4.5 其他轻量化PEFT方案：IA³

5 PEFT的进阶优化策略

5.1 舍去策略

5.1.1 DARE（动态丢弃）

5.1.2 Child-tuning

5.2 组合策略

5.2.1 LoRA+MoE

5.2.2 UniPELT

5.2.3 QLoRA+知识蒸馏

6 总结

—THE END—

【学习资料】“两个结合”是中国特色社会主义取得成功的最大法宝

「0511-农业机械学」电子版+学习笔记+知识点总结+期末考试重点+复习+习题集及答案+名词解释+历年真题试卷及答案+题库及答案+复习重点

最新文章

热门文章

随机文章