当前位置：首页>学习笔记>GRPO 训练学习笔记:从入门到深入理解

GRPO 训练学习笔记:从入门到深入理解

2026-04-21 08:49:39

GRPO 训练学习笔记：从入门到深入理解1. 什么是 GRPO？2. 为什么要提出 GRPO？——从 PPO 的痛点说起3. GRPO 的核心工作原理3.1 三个关键机制机制一：组采样（Group Sampling）机制二：相对奖励（Relative Reward）机制三：KL 散度约束（KL Divergence Constraint）3.2 数学表达（简单版）4. GRPO vs PPO：一张表看懂区别5. GRPO 的训练流程5.1 第 1 步：Rollout 生成阶段5.2 第 2 步：奖励计算阶段5.3 第 3 步：优势计算阶段5.4 第 4 步：策略更新阶段6. 实战指南：如何用 GRPO 训练你的模型6.1 推荐的工具和框架6.2 关键超参数配置建议6.3 奖励函数设计原则6.4 训练建议6.5 简单的训练 Demo7. GRPO 的变体与前沿进展8. 总结与思考8.1 核心要点8.2 个人思考8.3 延伸学习推荐参考资料

1. 什么是 GRPO？

GRPO（Group Relative Policy Optimization，组相对策略优化）是 DeepSeek 团队在 2024 年 2 月提出的一种强化学习算法，首次发表于论文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》。它后来被 DeepSeek-R1 采用，成为推动大语言模型推理能力提升的关键技术之一，迅速引起了学术界和工业界的广泛关注。

用一句话来理解：GRPO 是一种教 AI 学会思考的训练方法。它不再依赖传统的价值模型（Critic）来评估模型回答的“好坏”，而是让模型对同一个问题生成多个答案，然后在组内比较这些答案的相对优劣，从而引导模型朝着更好的方向更新。

📌 小贴士：GRPO 并不是第一个用于 LLM 的强化学习算法，但它通过巧妙的简化设计，大幅降低了训练成本，让更多研究者和开发者能够上手实践。

2. 为什么要提出 GRPO？——从 PPO 的痛点说起

在 GRPO 出现之前，大语言模型的强化学习对齐主要依赖 PPO（Proximal Policy Optimization，近端策略优化）算法。PPO 的训练框架需要同时维护四个模型：

策略模型（Actor） ：负责生成回答——就像正在学习的学生。
参考模型（Reference Model） ：保存初始模型的状态，防止策略模型“学偏”——类似学生的原始教材。
奖励模型（Reward Model） ：对完整回答进行评分——就像看完试卷后打分的老师。
价值模型（Critic） ：对生成过程中的每一步给出即时反馈——类似在解题过程中实时点评的助教。

这个框架虽然效果好，但存在两个明显问题：

显存开销大：Actor 和 Critic 都是大型神经网络，二者需要同时加载和更新，显存占用翻倍。
训练不稳定：Critic 本身也需要被训练，它的估计误差会直接影响到策略的更新质量。

GRPO 的核心创新简单而直接：直接去掉 Critic 模型。既然 Critic 存在的意义就是提供一个“基准”来计算优势函数，那为什么不直接用组内样本的平均值作为基准呢？

3. GRPO 的核心工作原理

3.1 三个关键机制

机制一：组采样（Group Sampling）

对于每个训练样本（比如一道数学题），GRPO 会让模型生成 G 个不同的回答（通常 G=8，可根据显存调整）。为什么要这么做？就像让学生把同一道题做 8 遍，有的对、有的错，对比之下就能看出哪种思路更好。同时，多次采样还能避免模型“碰巧蒙对”的情况。

机制二：相对奖励（Relative Reward）

GRPO 不关心每个回答的“绝对分数”，而是看它在组内的相对排名。具体做法是：先计算组内所有回答的奖励分数的均值和标准差，然后用每个回答的原始分数减去均值、再除以标准差，得到“相对优势值”。

举个例子：假设模型对“3 + 5 = ?”这道题生成了 8 个回答，奖励函数对正确回答给 2 分，格式正确但答案错误给 1 分，其他给 0 分：

回答内容	原始奖励	相对优势
“7”	0	-0.7
“8”	2	+0.9
“9”	0	-0.7
“8”	2	+0.9
“10”	0	-0.7
“答案是8”	1	+0.1
“8”	2	+0.9
“7”	0	-0.7

平均奖励 = 0.875。分数高于平均的回答获得正优势值（奖励），低于平均的获得负优势值（惩罚）。这种设计的好处是：不需要知道“满分是多少”，只需要知道“这个答案比同组的其他答案好还是差”。

机制三：KL 散度约束（KL Divergence Constraint）

为了防止模型在学习过程中“学坏”（偏离原始模型太远），GRPO 在损失函数中直接加入了 KL 散度惩罚项，确保新策略不会过度偏离参考策略。

3.2 数学表达（简单版）

对于不想深入公式的读者，可以跳过这部分。但如果能看懂，会对 GRPO 有更深刻的理解。

GRPO 的核心目标函数可以表示为：

4. GRPO vs PPO：一张表看懂区别

对比维度	PPO	GRPO
需要 Critic 模型	✅ 是	❌ 否
需要训练奖励模型	✅ 通常需要	❌ 用规则函数替代
显存占用	高（4 个模型）	低（约 2 个模型）
训练稳定性	依赖 Critic 估计质量	依赖组内样本质量
并行效率（128 GPU）	约 78%	约 92%
适用场景	通用 RLHF 场景	有可验证奖励的任务（数学、代码）

GRPO 的优势在于省资源、更稳定、并行效率更高。但它也有短板：如果组内样本质量普遍较差（比如 8 个回答全是错的），相对奖励就可能无法提供有效信号。

5. GRPO 的训练流程

GRPO 的完整训练流程可以概括为以下四步：

5.1 第 1 步：Rollout 生成阶段

对于每个训练提示词（prompt），让当前策略模型生成 G 个不同的回答（completions）。通常使用较高的温度参数（如 temperature=1.0）来保证回答的多样性。

5.2 第 2 步：奖励计算阶段

使用预定义的奖励函数（而非训练好的奖励模型）为每个回答打分。奖励函数通常是基于规则的，例如：

数学任务：答案是否正确（0 或 1）。
代码任务：代码是否能成功编译、是否通过单元测试。
格式任务：回答是否符合指定格式（如是否包含 <reasoning> 标签）。

5.3 第 3 步：优势计算阶段

将组内所有回答的奖励分数进行归一化：计算均值和标准差，然后算出每个回答的相对优势值。

5.4 第 4 步：策略更新阶段

结合优势值和 KL 散度约束，计算 GRPO 损失函数，并通过梯度下降更新策略模型的参数。

6. 实战指南：如何用 GRPO 训练你的模型

6.1 推荐的工具和框架

目前有多个成熟的框架支持 GRPO 训练，开发者可以根据需求选择：

工具/框架	特点	适合人群
TRL (Hugging Face)	官方 GRPOTrainer，文档完善	初学者、研究者
Unsloth	优化显存使用，支持 Colab 免费 GPU	资源有限的开发者
ms-swift	魔搭社区出品，全链路工程化平台	需要完整训练流程的团队
verl / ChatLearn	支持 FSDP 分布式训练	大规模训练需求

6.2 关键超参数配置建议

根据实践经验，以下是一些关键超参数的推荐配置：

num_generations (G) ：每个 prompt 生成的回答数量。推荐 8~14。显存不足时可降低，但会损失样本多样性。
batch_size：每步处理的样本数。根据 GPU 数量调整。
beta (KL 系数) ：控制策略偏离参考模型的程度。推荐 0.01~0.1。
learning_rate：推荐使用较小的学习率（如 1e-6），避免策略剧烈波动。
temperature：采样温度。推荐 0.7~1.0，保证生成多样性。

6.3 奖励函数设计原则

奖励函数是 GRPO 训练的核心，设计好坏直接影响最终效果。以下是一些设计原则：

可验证性：奖励应该能够通过程序自动判断（如正则匹配、执行代码、数值比较），避免依赖人工标注。
细粒度：不要只给最终结果打分。可以拆分为多个维度（如格式分 + 步骤分 + 结果分），让模型获得更丰富的反馈信号。
防奖励黑客：奖励函数要足够严谨，防止模型通过“钻空子”获取高分。例如，如果只奖励“回答中包含正确答案”，模型可能学会用大量废话包裹正确答案来刷分。

6.4 训练建议

根据 Unsloth 官方文档的建议：

至少训练 300 步（约 30 分钟）才能看到初步效果。如果模型没有明显进步，建议检查奖励函数的设计是否合理，或调整 beta 参数来控制更新幅度。

6.5 简单的训练 Demo

下面我们使用 Hugging Face 的 TRL 库，演示一个最简单的 GRPO 训练示例。假设我们要训练一个能正确回答简单加法题的模型。

# 1. 安装必要的库（如果尚未安装）# !pip install transformers datasets accelerate trlfrom datasets import Datasetfrom transformers import AutoModelForCausalLM, AutoTokenizerfrom trl import GRPOTrainer, GRPOConfigimport torch# 2. 加载基础模型（这里以 Qwen2.5-0.5B 为例）model_name = "Qwen/Qwen2.5-0.5B-Instruct"model = AutoModelForCausalLM.from_pretrained(    model_name,     torch_dtype=torch.float16,     device_map="auto")tokenizer = AutoTokenizer.from_pretrained(model_name)tokenizer.pad_token = tokenizer.eos_token  # 设置 pad_token# 3. 准备训练数据（一组数学问题）train_data = [    {"prompt": "请计算 3 + 5 = ?"},    {"prompt": "请计算 12 + 7 = ?"},    {"prompt": "请计算 24 + 15 = ?"},    {"prompt": "请计算 8 + 9 = ?"},    {"prompt": "请计算 16 + 4 = ?"},    # ... 实际使用时建议准备 100+ 条数据]dataset = Dataset.from_list(train_data)# 4. 定义奖励函数（基于规则的数学答案验证）def math_reward_func(completions, prompt, **kwargs):    """    对于每个生成的回答，提取最后一个数字并判断是否正确。    """    rewards = []    for completion in completions:        # 尝试提取回答中的最后一个数字        numbers = [int(s) for s in completion.split() if s.isdigit()]        if numbers:            predicted = numbers[-1]        else:            predicted = None        # 提取 prompt 中的算式，计算正确答案        prompt_text = prompt[0] if isinstance(prompt, list) else prompt        # 简单解析 "3 + 5" 这种格式        import re        nums = re.findall(r'\d+', prompt_text)        if len(nums) >= 2:            expected = sum(map(int, nums[-2:]))        else:            expected = None        # 比较并给予奖励        if predicted == expected:            rewards.append(1.0)      # 正确给 1 分        else:            rewards.append(0.0)      # 错误给 0 分    return rewards# 5. 配置 GRPO 训练参数training_args = GRPOConfig(    output_dir="./grpo_math_output",    num_train_epochs=3,              # 训练轮数    per_device_train_batch_size=2,   # 每个设备的批量大小    gradient_accumulation_steps=4,   # 梯度累积步数    learning_rate=1e-6,    logging_steps=10,    save_steps=100,    bf16=True,                       # 使用 bfloat16 节省显存    max_completion_length=128,       # 生成回答的最大长度    num_generations=4,               # 每个 prompt 生成的回答数量 (G)    temperature=0.9,    beta=0.04,                       # KL 惩罚系数)# 6. 创建 Trainer 并开始训练trainer = GRPOTrainer(    model=model,    processing_class=tokenizer,    args=training_args,    train_dataset=dataset,    reward_funcs=[math_reward_func],  # 可以传入多个奖励函数，结果会相加)trainer.train()# 7. 保存训练好的模型trainer.save_model("./grpo_math_trained")

代码要点说明：

模型选择：这里使用了 0.5B 的小模型，方便在普通 GPU 上运行。实际生产环境可以换成更大的模型。
数据格式：训练数据只需要包含 prompt 字段，Trainer 会自动处理生成和奖励计算。
奖励函数：这是整个流程的核心。本例用了最简单的规则匹配，真实场景下可能需要更复杂的逻辑（例如调用代码执行器）。
关键参数：

num_generations=4：每个问题生成 4 个回答进行组内比较。
beta=0.04：控制 KL 散度的权重，防止模型遗忘原始能力。

💡 提示：如果你用的是 Unsloth 框架，代码会更简洁，并且显存优化更好。具体可参考 Unsloth 的 GRPO 教程（链接见延伸学习推荐）。

7. GRPO 的变体与前沿进展

GRPO 提出后，社区涌现出了多个变体算法，在不同方向上做了改进：

DAPO：最基础的 GRPO 变体，适用于静态偏好数据集。
GSPO：引入组内归一化，缓解样本间尺度不一致的问题。
RLOO：支持在线打分反馈，可接入人工或自动评估器。
Multi-Layer GRPO：在推理过程的多个中间层施加奖励信号，提升自纠错能力。
Dr. GRPO：一种无偏优化方法，在保持推理性能的同时提升 token 效率。

在理论层面，最新的研究（2026 年 3 月）从 U-统计量的角度对 GRPO 进行了深入分析，揭示了 GRPO 策略梯度本质上是一个 U-统计量，并推导出了最优组大小的通用缩放定律。这些研究为 GRPO 的进一步改进提供了理论支撑。

8. 总结与思考

8.1 核心要点

GRPO 的本质：用“组内比较”替代“价值模型”，大幅降低训练成本。
核心机制：组采样 → 相对奖励计算 → KL 约束更新。
适用场景：有可验证奖励信号的任务（数学推理、代码生成等）。
实践要点：奖励函数设计是关键，超参数需要根据任务调整。

8.2 个人思考

GRPO 的成功给我们一个重要启示：简化有时比复杂化更有效。PPO 框架中的 Critic 模型看似“理所应当”，但 GRPO 证明了在很多场景下它并不是必需的。这种“做减法”的设计哲学，在大模型时代尤为珍贵——当我们面对巨大的算力和存储成本时，精简架构本身就是一种竞争力。

当然，GRPO 也不是万能的。它依赖高质量的组内样本和精心设计的奖励函数。在奖励信号稀疏或难以通过规则定义的任务上，GRPO 的效果可能会打折扣。此外，最新研究也指出，组相对优势估计本身存在一定偏差。

8.3 延伸学习推荐

如果你对 GRPO 感兴趣，推荐以下资源深入学习：

资源类型	名称	说明与链接
📄 原始论文	DeepSeekMath (arXiv:2402.03300)	GRPO 首次提出：https://arxiv.org/abs/2402.03300
📄 技术报告	DeepSeek-R1 论文	GRPO 在推理模型中的应用：https://arxiv.org/abs/2501.12948
📚 官方文档	TRL GRPOTrainer	最成熟的代码实现：https://huggingface.co/docs/trl/grpo_trainer
📘 教程	Unsloth GRPO 教程	零基础入门实战：https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide/tutorial-train-your-own-reasoning-model-with-grpo
📝 博文	DeepSeek-R1 Dissection (Hugging Face)	无痛理解 PPO 与 GRPO：https://huggingface.co/blog/zh/deepseek-r1-dissection
📄 理论分析	Demystifying Group Relative Policy Optimization (arXiv:2603.01162)	GRPO 的 U-统计量分析：https://arxiv.org/abs/2603.01162
📁 工程框架	ms-swift GRPO 文档	阿里魔搭社区全链路训练平台：https://swift.readthedocs.io/en/v4.0/Instruction/GRPO/GetStarted/GRPO.html

希望这篇笔记能帮助你更好地理解 GRPO。如果有任何问题或发现本文有错误之处，欢迎在评论区交流讨论！

参考资料

DeepSeekMath 论文：GRPO 首次提出。https://arxiv.org/abs/2402.03300
TRL 官方文档：GRPO 的开源实现。https://huggingface.co/docs/trl/grpo_trainer
DeepSeek-R1 技术报告：GRPO 在推理模型中的应用。https://arxiv.org/abs/2501.12948
强化学习系列（十二）--GRPO，DAPO，DUPO，GSPO，腾讯云开发者社区。https://cloud.tencent.cn/developer/article/2592688
从0开发大模型：DeepSeek的GRPO算法全解析与实战指南，百度智能云。https://cloud.baidu.com/article/3588245
大模型强化学习全解：从PPO、DPO到DeepSeek的GRPO，阿里云开发者社区。https://developer.aliyun.com/article/1709956
详解GRPO算法：大模型训练资源优化的革新路径，百度智能云。https://cloud.baidu.com/article/3747507
GRPO 算法伪代码与文档，Swift 官方文档。https://swift.readthedocs.io/en/v4.0/Instruction/GRPO/GetStarted/GRPO.html
Demystifying Group Relative Policy Optimization，arXiv:2603.01162。https://arxiv.org/abs/2603.01162
教程：使用 GRPO 训练你自己的推理模型，Unsloth 官方文档。https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide/tutorial-train-your-own-reasoning-model-with-grpo
ms-swift框架下的GRPO强化学习算法实战解析，51Testing。http://www.51testing.com/mobile/view.php?itemid=7808712
DLAI-GRPO-大模型强化微调笔记-全，博客园。https://www.cnblogs.com/apachecn/p/19773645

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

GRPO 训练学习笔记:从入门到深入理解

1. 什么是 GRPO？

2. 为什么要提出 GRPO？——从 PPO 的痛点说起

3. GRPO 的核心工作原理

3.1 三个关键机制

机制一：组采样（Group Sampling）

机制二：相对奖励（Relative Reward）

机制三：KL 散度约束（KL Divergence Constraint）

3.2 数学表达（简单版）

4. GRPO vs PPO：一张表看懂区别

5. GRPO 的训练流程

5.1 第 1 步：Rollout 生成阶段

5.2 第 2 步：奖励计算阶段

5.3 第 3 步：优势计算阶段

5.4 第 4 步：策略更新阶段

6. 实战指南：如何用 GRPO 训练你的模型

6.1 推荐的工具和框架

6.2 关键超参数配置建议

6.3 奖励函数设计原则

6.4 训练建议

6.5 简单的训练 Demo

7. GRPO 的变体与前沿进展

8. 总结与思考

8.1 核心要点

8.2 个人思考

8.3 延伸学习推荐

参考资料

最新文章

热门文章

随机文章

GRPO 训练学习笔记:从入门到深入理解

1. 什么是 GRPO？

2. 为什么要提出 GRPO？——从 PPO 的痛点说起

3. GRPO 的核心工作原理

3.1 三个关键机制

机制一：组采样（Group Sampling）

机制二：相对奖励（Relative Reward）

机制三：KL 散度约束（KL Divergence Constraint）

3.2 数学表达（简单版）

4. GRPO vs PPO：一张表看懂区别

5. GRPO 的训练流程

5.1 第 1 步：Rollout 生成阶段

5.2 第 2 步：奖励计算阶段

5.3 第 3 步：优势计算阶段

5.4 第 4 步：策略更新阶段

6. 实战指南：如何用 GRPO 训练你的模型

6.1 推荐的工具和框架

6.2 关键超参数配置建议

6.3 奖励函数设计原则

6.4 训练建议

6.5 简单的训练 Demo

7. GRPO 的变体与前沿进展

8. 总结与思考

8.1 核心要点

8.2 个人思考

8.3 延伸学习推荐

参考资料

2026.04.21更新【免费学习资料大全】,有需自取,均免费分享→

RhNULL血型学习笔记

最新文章

热门文章

随机文章