GRPO 训练学习笔记:从入门到深入理解1. 什么是 GRPO?2. 为什么要提出 GRPO?——从 PPO 的痛点说起3. GRPO 的核心工作原理3.1 三个关键机制机制一:组采样(Group Sampling)机制二:相对奖励(Relative Reward)机制三:KL 散度约束(KL Divergence Constraint)3.2 数学表达(简单版)4. GRPO vs PPO:一张表看懂区别5. GRPO 的训练流程5.1 第 1 步:Rollout 生成阶段5.2 第 2 步:奖励计算阶段5.3 第 3 步:优势计算阶段5.4 第 4 步:策略更新阶段6. 实战指南:如何用 GRPO 训练你的模型6.1 推荐的工具和框架6.2 关键超参数配置建议6.3 奖励函数设计原则6.4 训练建议6.5 简单的训练 Demo7. GRPO 的变体与前沿进展8. 总结与思考8.1 核心要点8.2 个人思考8.3 延伸学习推荐参考资料
1. 什么是 GRPO?
GRPO(Group Relative Policy Optimization,组相对策略优化)是 DeepSeek 团队在 2024 年 2 月提出的一种强化学习算法,首次发表于论文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》。它后来被 DeepSeek-R1 采用,成为推动大语言模型推理能力提升的关键技术之一,迅速引起了学术界和工业界的广泛关注。
用一句话来理解:GRPO 是一种教 AI 学会思考的训练方法。它不再依赖传统的价值模型(Critic)来评估模型回答的“好坏”,而是让模型对同一个问题生成多个答案,然后在组内比较这些答案的相对优劣,从而引导模型朝着更好的方向更新。
📌 小贴士:GRPO 并不是第一个用于 LLM 的强化学习算法,但它通过巧妙的简化设计,大幅降低了训练成本,让更多研究者和开发者能够上手实践。
2. 为什么要提出 GRPO?——从 PPO 的痛点说起
在 GRPO 出现之前,大语言模型的强化学习对齐主要依赖 PPO(Proximal Policy Optimization,近端策略优化)算法。PPO 的训练框架需要同时维护四个模型:
策略模型(Actor) :负责生成回答——就像正在学习的学生。
参考模型(Reference Model) :保存初始模型的状态,防止策略模型“学偏”——类似学生的原始教材。
奖励模型(Reward Model) :对完整回答进行评分——就像看完试卷后打分的老师。
价值模型(Critic) :对生成过程中的每一步给出即时反馈——类似在解题过程中实时点评的助教。
这个框架虽然效果好,但存在两个明显问题:
GRPO 的核心创新简单而直接:直接去掉 Critic 模型。既然 Critic 存在的意义就是提供一个“基准”来计算优势函数,那为什么不直接用组内样本的平均值作为基准呢?
3. GRPO 的核心工作原理
3.1 三个关键机制
机制一:组采样(Group Sampling)
对于每个训练样本(比如一道数学题),GRPO 会让模型生成 G 个不同的回答(通常 G=8,可根据显存调整)。为什么要这么做?就像让学生把同一道题做 8 遍,有的对、有的错,对比之下就能看出哪种思路更好。同时,多次采样还能避免模型“碰巧蒙对”的情况。
机制二:相对奖励(Relative Reward)
GRPO 不关心每个回答的“绝对分数”,而是看它在组内的相对排名。具体做法是:先计算组内所有回答的奖励分数的均值和标准差,然后用每个回答的原始分数减去均值、再除以标准差,得到“相对优势值”。
举个例子:假设模型对“3 + 5 = ?”这道题生成了 8 个回答,奖励函数对正确回答给 2 分,格式正确但答案错误给 1 分,其他给 0 分:
| 回答内容 | 原始奖励 | 相对优势 |
|---|
| “7” | 0 | -0.7 |
| “8” | 2 | +0.9 |
| “9” | 0 | -0.7 |
| “8” | 2 | +0.9 |
| “10” | 0 | -0.7 |
| “答案是8” | 1 | +0.1 |
| “8” | 2 | +0.9 |
| “7” | 0 | -0.7 |
平均奖励 = 0.875。分数高于平均的回答获得正优势值(奖励),低于平均的获得负优势值(惩罚)。这种设计的好处是:不需要知道“满分是多少”,只需要知道“这个答案比同组的其他答案好还是差”。
机制三:KL 散度约束(KL Divergence Constraint)
为了防止模型在学习过程中“学坏”(偏离原始模型太远),GRPO 在损失函数中直接加入了 KL 散度惩罚项,确保新策略不会过度偏离参考策略。
3.2 数学表达(简单版)
对于不想深入公式的读者,可以跳过这部分。但如果能看懂,会对 GRPO 有更深刻的理解。
GRPO 的核心目标函数可以表示为:
4. GRPO vs PPO:一张表看懂区别
| 对比维度 | PPO | GRPO |
|---|
| 需要 Critic 模型 | ✅ 是 | ❌ 否 |
| 需要训练奖励模型 | ✅ 通常需要 | ❌ 用规则函数替代 |
| 显存占用 | 高(4 个模型) | 低(约 2 个模型) |
| 训练稳定性 | 依赖 Critic 估计质量 | 依赖组内样本质量 |
| 并行效率(128 GPU) | 约 78% | 约 92% |
| 适用场景 | 通用 RLHF 场景 | 有可验证奖励的任务(数学、代码) |
GRPO 的优势在于省资源、更稳定、并行效率更高。但它也有短板:如果组内样本质量普遍较差(比如 8 个回答全是错的),相对奖励就可能无法提供有效信号。
5. GRPO 的训练流程
GRPO 的完整训练流程可以概括为以下四步:
5.1 第 1 步:Rollout 生成阶段
对于每个训练提示词(prompt),让当前策略模型生成 G 个不同的回答(completions)。通常使用较高的温度参数(如 temperature=1.0)来保证回答的多样性。
5.2 第 2 步:奖励计算阶段
使用预定义的奖励函数(而非训练好的奖励模型)为每个回答打分。奖励函数通常是基于规则的,例如:
5.3 第 3 步:优势计算阶段
将组内所有回答的奖励分数进行归一化:计算均值和标准差,然后算出每个回答的相对优势值。
5.4 第 4 步:策略更新阶段
结合优势值和 KL 散度约束,计算 GRPO 损失函数,并通过梯度下降更新策略模型的参数。
6. 实战指南:如何用 GRPO 训练你的模型
6.1 推荐的工具和框架
目前有多个成熟的框架支持 GRPO 训练,开发者可以根据需求选择:
| 工具/框架 | 特点 | 适合人群 |
|---|
| TRL (Hugging Face) | 官方 GRPOTrainer,文档完善 | 初学者、研究者 |
| Unsloth | 优化显存使用,支持 Colab 免费 GPU | 资源有限的开发者 |
| ms-swift | 魔搭社区出品,全链路工程化平台 | 需要完整训练流程的团队 |
| verl / ChatLearn | 支持 FSDP 分布式训练 | 大规模训练需求 |
6.2 关键超参数配置建议
根据实践经验,以下是一些关键超参数的推荐配置:
num_generations (G) :每个 prompt 生成的回答数量。推荐 8~14。显存不足时可降低,但会损失样本多样性。
batch_size:每步处理的样本数。根据 GPU 数量调整。
beta (KL 系数) :控制策略偏离参考模型的程度。推荐 0.01~0.1。
learning_rate:推荐使用较小的学习率(如 1e-6),避免策略剧烈波动。
temperature:采样温度。推荐 0.7~1.0,保证生成多样性。
6.3 奖励函数设计原则
奖励函数是 GRPO 训练的核心,设计好坏直接影响最终效果。以下是一些设计原则:
可验证性:奖励应该能够通过程序自动判断(如正则匹配、执行代码、数值比较),避免依赖人工标注。
细粒度:不要只给最终结果打分。可以拆分为多个维度(如格式分 + 步骤分 + 结果分),让模型获得更丰富的反馈信号。
防奖励黑客:奖励函数要足够严谨,防止模型通过“钻空子”获取高分。例如,如果只奖励“回答中包含正确答案”,模型可能学会用大量废话包裹正确答案来刷分。
6.4 训练建议
根据 Unsloth 官方文档的建议:
至少训练 300 步(约 30 分钟)才能看到初步效果。如果模型没有明显进步,建议检查奖励函数的设计是否合理,或调整 beta 参数来控制更新幅度。
6.5 简单的训练 Demo
下面我们使用 Hugging Face 的 TRL 库,演示一个最简单的 GRPO 训练示例。假设我们要训练一个能正确回答简单加法题的模型。
# 1. 安装必要的库(如果尚未安装)# !pip install transformers datasets accelerate trlfrom datasets import Datasetfrom transformers import AutoModelForCausalLM, AutoTokenizerfrom trl import GRPOTrainer, GRPOConfigimport torch# 2. 加载基础模型(这里以 Qwen2.5-0.5B 为例)model_name = "Qwen/Qwen2.5-0.5B-Instruct"model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype=torch.float16, device_map="auto")tokenizer = AutoTokenizer.from_pretrained(model_name)tokenizer.pad_token = tokenizer.eos_token # 设置 pad_token# 3. 准备训练数据(一组数学问题)train_data = [ {"prompt": "请计算 3 + 5 = ?"}, {"prompt": "请计算 12 + 7 = ?"}, {"prompt": "请计算 24 + 15 = ?"}, {"prompt": "请计算 8 + 9 = ?"}, {"prompt": "请计算 16 + 4 = ?"}, # ... 实际使用时建议准备 100+ 条数据]dataset = Dataset.from_list(train_data)# 4. 定义奖励函数(基于规则的数学答案验证)def math_reward_func(completions, prompt, **kwargs): """ 对于每个生成的回答,提取最后一个数字并判断是否正确。 """ rewards = [] for completion in completions: # 尝试提取回答中的最后一个数字 numbers = [int(s) for s in completion.split() if s.isdigit()] if numbers: predicted = numbers[-1] else: predicted = None # 提取 prompt 中的算式,计算正确答案 prompt_text = prompt[0] if isinstance(prompt, list) else prompt # 简单解析 "3 + 5" 这种格式 import re nums = re.findall(r'\d+', prompt_text) if len(nums) >= 2: expected = sum(map(int, nums[-2:])) else: expected = None # 比较并给予奖励 if predicted == expected: rewards.append(1.0) # 正确给 1 分 else: rewards.append(0.0) # 错误给 0 分 return rewards# 5. 配置 GRPO 训练参数training_args = GRPOConfig( output_dir="./grpo_math_output", num_train_epochs=3, # 训练轮数 per_device_train_batch_size=2, # 每个设备的批量大小 gradient_accumulation_steps=4, # 梯度累积步数 learning_rate=1e-6, logging_steps=10, save_steps=100, bf16=True, # 使用 bfloat16 节省显存 max_completion_length=128, # 生成回答的最大长度 num_generations=4, # 每个 prompt 生成的回答数量 (G) temperature=0.9, beta=0.04, # KL 惩罚系数)# 6. 创建 Trainer 并开始训练trainer = GRPOTrainer( model=model, processing_class=tokenizer, args=training_args, train_dataset=dataset, reward_funcs=[math_reward_func], # 可以传入多个奖励函数,结果会相加)trainer.train()# 7. 保存训练好的模型trainer.save_model("./grpo_math_trained")
代码要点说明:
模型选择:这里使用了 0.5B 的小模型,方便在普通 GPU 上运行。实际生产环境可以换成更大的模型。
数据格式:训练数据只需要包含 prompt 字段,Trainer 会自动处理生成和奖励计算。
奖励函数:这是整个流程的核心。本例用了最简单的规则匹配,真实场景下可能需要更复杂的逻辑(例如调用代码执行器)。
关键参数:
💡 提示:如果你用的是 Unsloth 框架,代码会更简洁,并且显存优化更好。具体可参考 Unsloth 的 GRPO 教程(链接见延伸学习推荐)。
7. GRPO 的变体与前沿进展
GRPO 提出后,社区涌现出了多个变体算法,在不同方向上做了改进:
DAPO:最基础的 GRPO 变体,适用于静态偏好数据集。
GSPO:引入组内归一化,缓解样本间尺度不一致的问题。
RLOO:支持在线打分反馈,可接入人工或自动评估器。
Multi-Layer GRPO:在推理过程的多个中间层施加奖励信号,提升自纠错能力。
Dr. GRPO:一种无偏优化方法,在保持推理性能的同时提升 token 效率。
在理论层面,最新的研究(2026 年 3 月)从 U-统计量的角度对 GRPO 进行了深入分析,揭示了 GRPO 策略梯度本质上是一个 U-统计量,并推导出了最优组大小的通用缩放定律。这些研究为 GRPO 的进一步改进提供了理论支撑。
8. 总结与思考
8.1 核心要点
GRPO 的本质:用“组内比较”替代“价值模型”,大幅降低训练成本。
核心机制:组采样 → 相对奖励计算 → KL 约束更新。
适用场景:有可验证奖励信号的任务(数学推理、代码生成等)。
实践要点:奖励函数设计是关键,超参数需要根据任务调整。
8.2 个人思考
GRPO 的成功给我们一个重要启示:简化有时比复杂化更有效。PPO 框架中的 Critic 模型看似“理所应当”,但 GRPO 证明了在很多场景下它并不是必需的。这种“做减法”的设计哲学,在大模型时代尤为珍贵——当我们面对巨大的算力和存储成本时,精简架构本身就是一种竞争力。
当然,GRPO 也不是万能的。它依赖高质量的组内样本和精心设计的奖励函数。在奖励信号稀疏或难以通过规则定义的任务上,GRPO 的效果可能会打折扣。此外,最新研究也指出,组相对优势估计本身存在一定偏差。
8.3 延伸学习推荐
如果你对 GRPO 感兴趣,推荐以下资源深入学习:
| 资源类型 | 名称 | 说明与链接 |
|---|
| 📄 原始论文 | DeepSeekMath (arXiv:2402.03300) | GRPO 首次提出:https://arxiv.org/abs/2402.03300 |
| 📄 技术报告 | DeepSeek-R1 论文 | GRPO 在推理模型中的应用:https://arxiv.org/abs/2501.12948 |
| 📚 官方文档 | TRL GRPOTrainer | 最成熟的代码实现:https://huggingface.co/docs/trl/grpo_trainer |
| 📘 教程 | Unsloth GRPO 教程 | 零基础入门实战:https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide/tutorial-train-your-own-reasoning-model-with-grpo |
| 📝 博文 | DeepSeek-R1 Dissection (Hugging Face) | 无痛理解 PPO 与 GRPO:https://huggingface.co/blog/zh/deepseek-r1-dissection |
| 📄 理论分析 | Demystifying Group Relative Policy Optimization (arXiv:2603.01162) | GRPO 的 U-统计量分析:https://arxiv.org/abs/2603.01162 |
| 📁 工程框架 | ms-swift GRPO 文档 | 阿里魔搭社区全链路训练平台:https://swift.readthedocs.io/en/v4.0/Instruction/GRPO/GetStarted/GRPO.html |
希望这篇笔记能帮助你更好地理解 GRPO。如果有任何问题或发现本文有错误之处,欢迎在评论区交流讨论!
参考资料
DeepSeekMath 论文:GRPO 首次提出。https://arxiv.org/abs/2402.03300
TRL 官方文档:GRPO 的开源实现。https://huggingface.co/docs/trl/grpo_trainer
DeepSeek-R1 技术报告:GRPO 在推理模型中的应用。https://arxiv.org/abs/2501.12948
强化学习系列(十二)--GRPO,DAPO,DUPO,GSPO,腾讯云开发者社区。https://cloud.tencent.cn/developer/article/2592688
从0开发大模型:DeepSeek的GRPO算法全解析与实战指南,百度智能云。https://cloud.baidu.com/article/3588245
大模型强化学习全解:从PPO、DPO到DeepSeek的GRPO,阿里云开发者社区。https://developer.aliyun.com/article/1709956
详解GRPO算法:大模型训练资源优化的革新路径,百度智能云。https://cloud.baidu.com/article/3747507
GRPO 算法伪代码与文档,Swift 官方文档。https://swift.readthedocs.io/en/v4.0/Instruction/GRPO/GetStarted/GRPO.html
Demystifying Group Relative Policy Optimization,arXiv:2603.01162。https://arxiv.org/abs/2603.01162
教程:使用 GRPO 训练你自己的推理模型,Unsloth 官方文档。https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide/tutorial-train-your-own-reasoning-model-with-grpo
ms-swift框架下的GRPO强化学习算法实战解析,51Testing。http://www.51testing.com/mobile/view.php?itemid=7808712
DLAI-GRPO-大模型强化微调笔记-全,博客园。https://www.cnblogs.com/apachecn/p/19773645