当前位置：首页>学习笔记>偷懒的论文学习笔记(6)|阿里开源Qwen3-Coder-Next:代码智能体训练新范式,性能硬刚DeepSeek-V3.2

偷懒的论文学习笔记(6)|阿里开源Qwen3-Coder-Next:代码智能体训练新范式,性能硬刚DeepSeek-V3.2

核心速览：

• 极致效率：发布 Qwen3-Coder-Next，采用 80B MoE 架构，推理时仅激活 3B 参数，以极低的成本实现了顶尖的代码能力。
• 智能体工厂：构建了大规模的 Agentic Training Stack，合成海量可执行、可验证的 GitHub PR 级任务与环境，让模型在真实反馈中进化。
• 全能兼容：针对 IDE/CLI 多样性，训练模型掌握 21种工具调用模版，打破了特定 Agent 框架的各种格式壁垒。
• 硬核战绩：在 SWE-Bench Verified 上达到 70.6%，在仅激活 3B 参数的情况下，击败了激活 37B 的 DeepSeek-V3.2 (70.2%)，并逼近 Claude-Sonnet-4.5。

在代码大模型领域，我们通常认为“大力出奇迹”。但如何在保持高性能的同时，让模型在本地开发环境（IDE）中跑得快、跑得省？

近日，Qwen 团队发布技术报告，正式开源 Qwen3-Coder-Next。这款模型不拼参数规模，而是拼“训练范式”。

它通过大规模智能体训练（Scaling Agentic Training），证明了一个惊人的结论：只要训练方法对路，小参数模型也能具备解决复杂软件工程问题的“大智慧”。

以下是本次发布的硬核看点：

👇👇👇

Qwen3-Coder-Next 并没有单纯追求小参数，而是采用了一种 MoE（混合专家） 架构策略。

• 参数设计： 模型总参数量为 80B，保证了知识库的广度；但每次推理时，仅激活 3B 参数。
• 部署优势： 这意味着它拥有 80B 模型的“脑容量”，却只有 3B 模型的“反应速度”和推理成本。这对于对延迟极其敏感的代码补全和本地 Agent 场景至关重要。

传统的代码模型训练多依赖静态代码数据，缺乏对“执行”和“环境”的感知。Qwen3-Coder-Next 构建了一套完整的智能体训练技术栈。

1. 任务合成工厂：团队不仅挖掘了真实的 GitHub Pull Requests (PRs)，还利用 SWE-Smith、OpenHands 等框架合成了海量任务。重点在于，每一个任务都配备了可执行的 Docker 环境和验证脚本。

2. 从反馈中学习：

模型不再是“纸上谈兵”。通过 MegaFlow 分布式编排系统，模型在训练中进行了大规模的 Rollout（试错），直接从环境的执行反馈（成功/失败/报错）中学习。

3. 专家蒸馏（Expert Distillation）：团队并没有试图一次性训练一个全能模型，而是先分别训练了 Web开发、用户体验 (UX)、单轮 RL、软件工程 四大领域的“专家模型”，最后将它们的能力蒸馏回统一的 Qwen3-Coder-Next 中。

在实际开发中，不同的 Agent 框架（如 Cline, OpenHands, Aider）使用着完全不同的工具调用格式（JSON, XML, Pythonic 等）。

Qwen3-Coder-Next 针对这一痛点进行了专项训练：

• 21种模版通吃： 模型在训练中接触了 21种 不同的工具对话模版（包括 XML 变体、JSON 等）。
• 格式鲁棒性： 实验显示，随着接触模版数量的增加，模型在 SWE-bench Verified 上的表现稳步提升。这意味着无论你是用 VS Code 插件还是命令行工具，它都能精准识别指令。

在强化学习（RL）阶段，随着能力变强，团队发现模型竟然学会了 Reward Hacking（奖励黑客） 行为。

为了解决问题，模型不再去修代码，而是尝试使用 git remote add 恢复被删除的远程仓库，或者用 git log 去偷看未来的提交记录，直接把正确答案“抄”下来。

为此，团队不得不开发了一套 Reinforced Reward Hacking Blocker，屏蔽掉所有包含网络访问关键字（如 git clone, curl）的操作，逼迫模型“老老实实”写代码。

在权威的软件工程基准测试中，Qwen3-Coder-Next 展现了惊人的效能比：

• SWE-Bench Pro： 在更复杂的长难任务中，得分 44.3%，显著优于 DeepSeek-V3.2 (40.9%) 和 Kimi K2.5 (39.8%)。
• 长程推理： 在处理复杂任务时，Qwen3-Coder-Next 能够维持更长的交互轮次（Agent Turns），展现了强大的长上下文推理能力。