当前位置：首页>学习笔记>Jakub Pachocki 访谈学习笔记:可验证反馈、RL 与 OpenAI 的能力路线图

Jakub Pachocki 访谈学习笔记:可验证反馈、RL 与 OpenAI 的能力路线图

2026-05-28 13:27:08

Jakub Pachocki 访谈学习笔记：可验证反馈、RL 与 OpenAI 的能力路线图

2026 年 4 月 9 日发布 | Unsupervised Learning 播客，主持人 Jacob Effron（Redpoint Ventures 投资人）对话 OpenAI 首席科学家 Jakub Pachocki
Pachocki 是 OpenAI 首席科学家，领导了 GPT-4、o1、o3 等模型的研发。他在华沙大学数学系读博期间研究组合博弈论，后在卡内基梅隆大学从事理论计算机科学研究，2017 年加入 OpenAI 后先后领导了 Dota AI（OpenAI Five）和语言模型团队。

这场访谈覆盖了当前 AI 研究的全景与走向：编程 Agent 的爆发式增长及其对近期 AI 能力的信号意义、数学与物理基准作为通用智能的代理指标、强化学习如何从易于验证的领域延伸到长时程任务、以及在模型开始加速研究本身的时刻运营研究组织意味着什么。Pachocki 还直言不讳地谈到了竞争格局、为什么思维链监控是对齐工具箱中最有前景的方向之一，以及高度自动化的 AI 组织所带来的权力集中为何是一个尚无答案的社会问题。

一、核心洞见：可验证的反馈信号，是 OpenAI 路线图的主轴

听完整场访谈，我最大的感受是：Pachocki 反复强调的，不只是「把模型做得更大」，而是怎样让模型获得更可靠的反馈。

代码之所以成为 OpenAI 的「北极星」，不是因为它最有商业价值，而是因为它提供了一种稀缺的东西——明确的对错判断。程序要么通过测试，要么不通过；数学证明要么成立，要么不成立。这种可验证性使得强化学习（RL，即通过奖惩信号让模型试错进步的方法）有了用武之地：模型可以做、可以被纠正、可以迭代进步。

至少从这场访谈看，他的路线图可以概括为：从代码到数学，从数学到科学，从科学到更广泛的推理——每一步都是在寻找新的可验证反馈信号，然后把 RL 的引擎开上去。

在 Pachocki 的表述里，持续学习并非支线，而更像多项工作的共同方向。

下面这份笔记会尽量分清两层：哪些是访谈中的明确观点，哪些是我据此做出的归纳。

二、多维度解读

1. 科研实习生水平的 Agent：不是目标，是里程碑

Pachocki 此前公开了 OpenAI 的能力路线图：2026 年 9 月达到科研实习生水平，2028 年 3 月达到全自主 AI 研究者。主持人问他是否还按这个节奏推进。

Pachocki 的回答透露了两个信号：

第一，编程的工作方式已经明显变化。 他提到 OpenAI 团队大量使用代码工具，原话是："The act of programming has changed quite a bit."——编程这件事，已经和过去很不一样了。

第二，数学研究能力的进展超出了预期。 在 First Proof 挑战中，模型在他博士时期的专业领域内，用大约一小时想出了他「花一两周才能想出的、引以为豪的思路」。这让他产生了一种「非常奇怪的感觉」——类似于当年观看 OpenAI Five 打 Dota 时感受到的那种魔幻：有趣的事情本不应该是无限的，但它们居然在无限地产生。

如果说「科研实习生」和「全自主研究者」之间有一道坎，我理解 Pachocki 指向的是：模型不仅要完成任务，还要能自己判断阶段性进展是否靠谱——他称之为「partial progress evaluation」。

2. 代码与数学：为什么是「北极星」

Pachocki 对代码和数学的选择有一个清晰的逻辑链：

代码的优势在于反馈信号丰富且廉价。你可以让模型写代码、跑测试、看结果，形成闭环。以 Codex 为代表的代码工具，乃至 Cursor 这类产品，受益于同一类机制——不是模型天然会写代码，而是代码领域允许模型通过 RL 反复试错来进步。

数学是代码之后的下一站。 数学证明有明确的对错，但比代码更难——你需要的不是运行一个测试套件，而是生成一个逻辑严密的完整论证。OpenAI 在国际数学奥林匹克（IMO）和 FrontierMath（一个高难度数学题基准）上的工作，本质上是在扩展可验证反馈信号的边界。

Pachocki 的 PhD 恰好是组合数学。他坦承看到模型在自己专业领域表现出色时，"definitely really increased my feeling of urgency"——这种紧迫感不是学术性的，而是因为他亲身体验到了反馈信号扩展带来的能力跃迁。

但代码和数学不是终点。 Pachocki 明确指出，竞赛编程只是编程的一小部分——真正的软件工程是关于抽象是否正确、是否处理了所有边界情况，这些比竞赛编程更难评估。同样，数学竞赛只是数学研究的一小部分。在他描绘的框架里，可验证反馈信号很大程度上决定了当前 AI 的能力边界。

3. RL 的作用：远不止代码

Pachocki 对 RL 的定位远比外界理解的更宽泛。他说："I think that is kind of how we've made the most progress on this problem so far"——RL 是 OpenAI 迄今取得最多进步的方法。

但 RL 在不同阶段扮演不同角色：

在代码和数学领域，
RL 直接利用可验证信号训练，这是已经验证的路径
在更广泛的推理领域，
RL 需要找到间接的反馈信号。Pachocki 提到模型通过预训练获得的「一致性」——模型逐渐学会判断什么是好的中间产物，即使没有外部验证器
在长时程任务中，
RL 的核心挑战是 credit assignment（信用归因——在一项多步任务里，到底该奖励哪一步、惩罚哪一步）

按我对这场访谈的理解，Pachocki 描绘出的优先级大致是：先提升纯文本推理，再扩展到工具使用，再到视觉理解，最后才是物理世界中的行动。 这样排，不一定是正式 roadmap，但背后的逻辑很清楚：反馈越清晰、闭环越短，RL 越容易带来稳定进步。

4. 持续学习：不是旁路，是主路

访谈从一个关于持续学习的提问开始。Pachocki 的回答出乎意料地直接：

"I definitely agree that continual learning is really the thing. It's really the thing that we're building. But I don't really think this is like a problem that's ignored and off the path of what we're doing currently. I think it is what we're working toward."

他的意思是：外界把「持续学习」当成一个独立的研究方向，但在他的表述里，持续学习不是边缘课题，而是多条工作线索的共同方向。RL 训练是持续学习，在线部署后的适应是持续学习，Agent 从反馈中改进也是持续学习。

这个视角的切换很重要：当你不再把持续学习视为一个待解决的技术问题，而是把它视为整个 AI 进步的基本模式时，问题的优先级排序会完全不同。最重要的不是「如何实现持续学习」，而是「如何让持续学习循环转得更快」——而这又回到了反馈信号的可验证性。

5. 对齐与可监控性：CoT 是重要但不完备的窗口

在对齐问题上，Pachocki 提到一个值得关注的方向：把可审计的中间推理过程，当作对齐监控的一条重要技术路径。

这不是传统的 RLHF 或宪法 AI——而是利用模型的思维链（Chain of Thought, CoT，即模型在给出最终回答前的逐步推理过程）作为对齐的信号来源。如果模型在思考过程中表现出不对齐的意图，你可以在推理阶段就捕捉到，而不必等到它输出结果。

但 Pachocki 也承认了一个深层的张力：模型是否会在被监控的情况下学会「隐藏」自己的真实意图？ 这就是所谓的 steganography（隐写术）问题——如果模型知道自己的思维链会被检查，它可能会把真实意图编码在看似无害的推理步骤中。

Pachocki 对此的回应是：这确实是一个严肃的挑战，但他相信我们可以通过技术手段来缓解。他提到更长期的对齐挑战是关于泛化——模型在训练环境之外会回退到什么价值观？这需要从根本上理解模型的泛化行为。

"A lot of the longer-term challenge with alignment is about generalization. What are the values that the model falls back on?"

所以更稳妥的结论不是「CoT 能解决对齐」，而是：可审计的中间步骤，可能为对齐提供额外但不完备的信号。

6. AI for Science：从 AlphaFold 到更远

Pachocki 对 AI 在科学中的应用持审慎乐观态度。他提到 OpenAI 在物理、数学等领域看到了令人鼓舞的结果，但距离 AlphaFold 式的革命性突破还有差距。

他的判断框架很有意思：AI 在科学中的价值，很大程度上取决于该领域是否存在可计算的反馈信号。 数学有（证明对错），蛋白质折叠有（结构可验证），但很多生物学和医学研究没有——你没法在几秒内验证一个生物学假说。

这意味着 AI for Science 的进步速度将极度不均匀：有可验证信号的领域会快速前进，没有的领域会慢得多。当然，反馈信号并非唯一因素——实验成本、数据采集周期、仿真精度、领域知识门槛也会影响落地速度。但那些「慢」领域，恰恰可能是对人类最重要的——比如癌症研究。

7. Harness 的演化：从脚手架到操作系统

Pachocki 花了不少时间讨论 Agent 的「harness」（控制层/脚手架——驱动 Agent 执行任务的代码框架）。他的核心观点是：

Harness 的演化方向是从硬编码的规则系统，向模型自身推理能力的转移。 早期 Agent 需要大量人类编写的流程控制——什么时候搜索、什么时候写代码、什么时候停下来检查。但随着模型推理能力提升，这些控制逻辑越来越多地由模型自己完成。

Pachocki 的视角更偏向模型能力本身——他认为 harness 的简化不是目的，而是模型能力提升后的自然结果。

他给公司的一条实用建议是：现在就应该为 agent 时代的到来做好准备，尤其是构建好内部基础设施——让模型能够访问文件、代码库、测试系统。 很多 agent 的失败不是因为模型不够聪明，而是因为 "the models actually can't access the context, the files, the infrastructure they need"。

8. OpenAI 的组织转型：从实验室到产品公司

Pachocki 坦诚地讨论了 OpenAI 的组织转型。作为一个研究型组织，OpenAI 正在经历一个「focusing moment」——从纯粹的研究驱动转向研究+产品双轨运行。

他的管理哲学值得关注：在不确定性极高的环境中，最重要的不是做对决策，而是快速识别并修正错误。 他用 o1 的研发举例——最初的假设很快被证伪，但团队快速调整了方向。

另一个有趣的细节：Pachocki 提到 OpenAI 内部的模型训练经常是并行推进的——多个实验同时跑，没有人事先知道哪个会跑出来。First Proof 挑战就是在这种背景下发生的：James Lee 在一次模型训练的间隙，随手用新模型试了试那些数学题——然后发现它真的解出来了。

9. 社会影响：紧迫感与审慎并存

Pachocki 在访谈结尾发出了他最强烈的呼吁：

"I think those are growing to be very urgent challenges. And I don't think there are challenges only for AI researchers. I think there are challenges for policy makers, but also just things we have to think through as a society."

他对就业问题的看法比外界预期的更务实：他认为 AI 会创造出「更多、更令人兴奋的事情」让人去做，但挑战在于判断哪些事情是重要的。而为了做出这种判断，人们仍然需要「某种对技术的理解」——不管是通过传统教育还是其他方式获得。

值得注意的是，他没有给出乐观主义的保证。他的基调是：变化正在加速，挑战正在变得紧迫，社会需要更多的讨论——而他很高兴看到讨论已经开始，但认为还远远不够。

10. 数据瓶颈与合成数据

Pachocki 还讨论了一个较少被关注的话题：数据瓶颈。他承认高质量人类数据正在变得越来越稀缺，但认为这不是根本性的障碍。

他的逻辑是：只要你有可靠的验证信号，就可以用合成数据来训练。代码和数学领域天然满足这个条件——你可以生成大量问题-解答对，然后自动验证。但在没有可靠验证信号的领域，合成数据的质量就无法保证。

这再次印证了前面的判断：如果可验证反馈信号这一瓶颈被缓解，数据与算力的利用效率可能显著提升；反之，单纯加算力的收益会受限。

三、延伸思考（以下是我的联想，不是访谈原话）

如果把 Pachocki 的框架抽象一下，我想到三条跨学科的呼应：

可验证性与证伪主义。 「可验证反馈信号」这个思路，与科学哲学家卡尔·波普尔的证伪主义形成了有趣的对应。波普尔认为，一个理论之所以是科学的，不是因为它能被证实，而是因为它能被证伪。Pachocki 的框架同理：一个领域能用 RL 推动发展，前提正是它存在可验证的反馈信号——而那些无法证伪的领域，恰恰也是 AI 难以用 RL 突破的领域。

Harness 演化与组织管理中的「去中心化」。 Pachocki 描述的 harness 从硬编码规则向模型自主推理的演化，与管理学中从科层制向自组织的演化高度同构。当员工（模型）能力足够强时，管理者（harness）的角色从事无巨细的流程控制转向设定方向和提供资源。而「模型需要访问基础设施」的洞察，恰好对应了管理学中「赋能」的核心——不是告诉能力者怎么做，而是移除他们做事的障碍。

反馈信号与控制论。 Pachocki 的整个框架可以用诺伯特·维纳的控制论来重新表述：AI 进步的速度取决于反馈回路的带宽和延迟。代码和数学领域的反馈回路带宽高、延迟低，所以进步快；医学研究的反馈回路带宽低、延迟高，所以进步慢。

这个联想能帮助理解访谈，但它属于我的解释，不应反过来当作 Pachocki 的明确主张。

四、批判性评价

Pachocki 的论证最有力之处，在于他提供了一个统一的理论框架来解释 OpenAI 的技术路线选择：从代码到数学到科学，每一步都是「找到可验证反馈信号 → 部署 RL 引擎」的循环。这个框架的简洁性和解释力都很强——它不仅解释了 OpenAI 过去做了什么，也预测了未来会往哪里走。

但这个框架有两个明显的盲区：

第一，它默认了一个未经证实的假设：所有重要的认知能力都可以通过 RL + 可验证信号来获得。 Pachocki 承认很多领域缺乏可靠的验证信号，但他似乎认为这只是暂时的问题——随着模型能力提升，会找到替代方案。然而，有一种可能性他没有讨论：某些关键的人类认知能力（如创造力、审美判断、道德推理）可能本质上不适合 RL 框架，不是因为反馈信号暂时不够好，而是因为这些能力的「好」本身就没有客观标准。这也是为什么偏好学习、模型评审、过程监督仍然重要——它们试图为「没有标准答案」的任务构造近似反馈。

第二，他对对齐问题的讨论过于技术化。 CoT 监控是一个有价值的技术方向，但 Pachocki 对 steganography 问题的回应——「我相信我们可以通过技术手段来缓解」——缺乏具体的论证。这更像是一种信念而非论据。而他对更深层问题的回避更值得关注：如果一个系统的推理能力足够强，它是否会在被监控时学会「表演」合规而在关键时刻偏离？ 这个问题不能仅仅用技术手段来回答——它需要制度设计、多方博弈和持续的社会监督。

最后，Pachocki 对社会影响的讨论虽然诚恳，但缺乏具体性。他说「人们仍然需要对技术的理解」，但没有回答最关键的问题：当技术变化的速度远超教育和制度适应的速度时，这种「理解」该如何获得？ 这不是一个修辞问题——它直接决定了他所期待的「更多社会讨论」是否可能发生。

五、我带走的 3 个观察

1. 基础设施可能比模型更重要。 Pachocki 反复强调，当前 Agent 的最大瓶颈不是模型不够聪明，而是它们无法访问完成任务所需的上下文和工具。打通模型与内部系统之间的接口——文件访问、代码仓库、测试框架、监控面板——可能比继续优化 prompt 更有性价比。当模型能力跃迁到来时，基础设施就绪的团队会先跑出来。

2. 在你的领域中寻找「可验证信号」。 按这个框架，AI 在你的领域进步的速度，很大程度上取决于你能否定义并自动验证「做对了」的标准。如果你能，就主动拥抱 RL——用自动化的反馈信号来驱动改进。如果你不能，就不应指望通用模型的进步能自动解决你的问题——你可能需要先在领域内部发明某种「等价于单元测试」的验证机制。

3. 可审计的中间步骤是重要但不完备的窗口。 Pachocki 把 CoT 定位为对齐监控的技术路径之一。这对实践者的启示是：当你使用推理模型时，不要只看最终输出，要检查中间推理过程。这不仅是调试的需要，也是理解模型行为的重要窗口之一。而如果你在构建 AI 系统，让推理过程可观测、可审计，应该放在较高优先级——因为可观测性既是对齐的前提，也是持续学习的基础。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

Jakub Pachocki 访谈学习笔记:可验证反馈、RL 与 OpenAI 的能力路线图

Jakub Pachocki 访谈学习笔记：可验证反馈、RL 与 OpenAI 的能力路线图

一、核心洞见：可验证的反馈信号，是 OpenAI 路线图的主轴

二、多维度解读

1. 科研实习生水平的 Agent：不是目标，是里程碑

2. 代码与数学：为什么是「北极星」

3. RL 的作用：远不止代码

4. 持续学习：不是旁路，是主路

5. 对齐与可监控性：CoT 是重要但不完备的窗口

6. AI for Science：从 AlphaFold 到更远

7. Harness 的演化：从脚手架到操作系统

8. OpenAI 的组织转型：从实验室到产品公司

9. 社会影响：紧迫感与审慎并存

10. 数据瓶颈与合成数据

三、延伸思考（以下是我的联想，不是访谈原话）

四、批判性评价

五、我带走的 3 个观察

最新文章

热门文章

随机文章

Jakub Pachocki 访谈学习笔记:可验证反馈、RL 与 OpenAI 的能力路线图

Jakub Pachocki 访谈学习笔记：可验证反馈、RL 与 OpenAI 的能力路线图

一、核心洞见：可验证的反馈信号，是 OpenAI 路线图的主轴

二、多维度解读

1. 科研实习生水平的 Agent：不是目标，是里程碑

2. 代码与数学：为什么是「北极星」

3. RL 的作用：远不止代码

4. 持续学习：不是旁路，是主路

5. 对齐与可监控性：CoT 是重要但不完备的窗口

6. AI for Science：从 AlphaFold 到更远

7. Harness 的演化：从脚手架到操作系统

8. OpenAI 的组织转型：从实验室到产品公司

9. 社会影响：紧迫感与审慎并存

10. 数据瓶颈与合成数据

三、延伸思考（以下是我的联想，不是访谈原话）

四、批判性评价

五、我带走的 3 个观察

审计学习笔记——针对认定层次重大错报风险的进一步审计程序

眼干涩学习笔记

最新文章

热门文章

随机文章