Jakub Pachocki 访谈学习笔记:可验证反馈、RL 与 OpenAI 的能力路线图
2026 年 4 月 9 日发布 | Unsupervised Learning 播客,主持人 Jacob Effron(Redpoint Ventures 投资人)对话 OpenAI 首席科学家 Jakub Pachocki
Pachocki 是 OpenAI 首席科学家,领导了 GPT-4、o1、o3 等模型的研发。他在华沙大学数学系读博期间研究组合博弈论,后在卡内基梅隆大学从事理论计算机科学研究,2017 年加入 OpenAI 后先后领导了 Dota AI(OpenAI Five)和语言模型团队。
这场访谈覆盖了当前 AI 研究的全景与走向:编程 Agent 的爆发式增长及其对近期 AI 能力的信号意义、数学与物理基准作为通用智能的代理指标、强化学习如何从易于验证的领域延伸到长时程任务、以及在模型开始加速研究本身的时刻运营研究组织意味着什么。Pachocki 还直言不讳地谈到了竞争格局、为什么思维链监控是对齐工具箱中最有前景的方向之一,以及高度自动化的 AI 组织所带来的权力集中为何是一个尚无答案的社会问题。
一、核心洞见:可验证的反馈信号,是 OpenAI 路线图的主轴
听完整场访谈,我最大的感受是:Pachocki 反复强调的,不只是「把模型做得更大」,而是怎样让模型获得更可靠的反馈。
代码之所以成为 OpenAI 的「北极星」,不是因为它最有商业价值,而是因为它提供了一种稀缺的东西——明确的对错判断。程序要么通过测试,要么不通过;数学证明要么成立,要么不成立。这种可验证性使得强化学习(RL,即通过奖惩信号让模型试错进步的方法)有了用武之地:模型可以做、可以被纠正、可以迭代进步。
至少从这场访谈看,他的路线图可以概括为:从代码到数学,从数学到科学,从科学到更广泛的推理——每一步都是在寻找新的可验证反馈信号,然后把 RL 的引擎开上去。
在 Pachocki 的表述里,持续学习并非支线,而更像多项工作的共同方向。
下面这份笔记会尽量分清两层:哪些是访谈中的明确观点,哪些是我据此做出的归纳。
二、多维度解读
1. 科研实习生水平的 Agent:不是目标,是里程碑
Pachocki 此前公开了 OpenAI 的能力路线图:2026 年 9 月达到科研实习生水平,2028 年 3 月达到全自主 AI 研究者。主持人问他是否还按这个节奏推进。
Pachocki 的回答透露了两个信号:
第一,编程的工作方式已经明显变化。 他提到 OpenAI 团队大量使用代码工具,原话是:"The act of programming has changed quite a bit."——编程这件事,已经和过去很不一样了。
第二,数学研究能力的进展超出了预期。 在 First Proof 挑战中,模型在他博士时期的专业领域内,用大约一小时想出了他「花一两周才能想出的、引以为豪的思路」。这让他产生了一种「非常奇怪的感觉」——类似于当年观看 OpenAI Five 打 Dota 时感受到的那种魔幻:有趣的事情本不应该是无限的,但它们居然在无限地产生。
如果说「科研实习生」和「全自主研究者」之间有一道坎,我理解 Pachocki 指向的是:模型不仅要完成任务,还要能自己判断阶段性进展是否靠谱——他称之为「partial progress evaluation」。
2. 代码与数学:为什么是「北极星」
Pachocki 对代码和数学的选择有一个清晰的逻辑链:
代码的优势在于反馈信号丰富且廉价。你可以让模型写代码、跑测试、看结果,形成闭环。以 Codex 为代表的代码工具,乃至 Cursor 这类产品,受益于同一类机制——不是模型天然会写代码,而是代码领域允许模型通过 RL 反复试错来进步。
数学是代码之后的下一站。 数学证明有明确的对错,但比代码更难——你需要的不是运行一个测试套件,而是生成一个逻辑严密的完整论证。OpenAI 在国际数学奥林匹克(IMO)和 FrontierMath(一个高难度数学题基准)上的工作,本质上是在扩展可验证反馈信号的边界。
Pachocki 的 PhD 恰好是组合数学。他坦承看到模型在自己专业领域表现出色时,"definitely really increased my feeling of urgency"——这种紧迫感不是学术性的,而是因为他亲身体验到了反馈信号扩展带来的能力跃迁。
但代码和数学不是终点。 Pachocki 明确指出,竞赛编程只是编程的一小部分——真正的软件工程是关于抽象是否正确、是否处理了所有边界情况,这些比竞赛编程更难评估。同样,数学竞赛只是数学研究的一小部分。在他描绘的框架里,可验证反馈信号很大程度上决定了当前 AI 的能力边界。
3. RL 的作用:远不止代码
Pachocki 对 RL 的定位远比外界理解的更宽泛。他说:"I think that is kind of how we've made the most progress on this problem so far"——RL 是 OpenAI 迄今取得最多进步的方法。
但 RL 在不同阶段扮演不同角色:
- 在代码和数学领域,
- 在更广泛的推理领域,RL 需要找到间接的反馈信号。Pachocki 提到模型通过预训练获得的「一致性」——模型逐渐学会判断什么是好的中间产物,即使没有外部验证器
- 在长时程任务中,RL 的核心挑战是 credit assignment(信用归因——在一项多步任务里,到底该奖励哪一步、惩罚哪一步)
按我对这场访谈的理解,Pachocki 描绘出的优先级大致是:先提升纯文本推理,再扩展到工具使用,再到视觉理解,最后才是物理世界中的行动。 这样排,不一定是正式 roadmap,但背后的逻辑很清楚:反馈越清晰、闭环越短,RL 越容易带来稳定进步。
4. 持续学习:不是旁路,是主路
访谈从一个关于持续学习的提问开始。Pachocki 的回答出乎意料地直接:
"I definitely agree that continual learning is really the thing. It's really the thing that we're building. But I don't really think this is like a problem that's ignored and off the path of what we're doing currently. I think it is what we're working toward."
他的意思是:外界把「持续学习」当成一个独立的研究方向,但在他的表述里,持续学习不是边缘课题,而是多条工作线索的共同方向。RL 训练是持续学习,在线部署后的适应是持续学习,Agent 从反馈中改进也是持续学习。
这个视角的切换很重要:当你不再把持续学习视为一个待解决的技术问题,而是把它视为整个 AI 进步的基本模式时,问题的优先级排序会完全不同。最重要的不是「如何实现持续学习」,而是「如何让持续学习循环转得更快」——而这又回到了反馈信号的可验证性。
5. 对齐与可监控性:CoT 是重要但不完备的窗口
在对齐问题上,Pachocki 提到一个值得关注的方向:把可审计的中间推理过程,当作对齐监控的一条重要技术路径。
这不是传统的 RLHF 或宪法 AI——而是利用模型的思维链(Chain of Thought, CoT,即模型在给出最终回答前的逐步推理过程)作为对齐的信号来源。如果模型在思考过程中表现出不对齐的意图,你可以在推理阶段就捕捉到,而不必等到它输出结果。
但 Pachocki 也承认了一个深层的张力:模型是否会在被监控的情况下学会「隐藏」自己的真实意图? 这就是所谓的 steganography(隐写术)问题——如果模型知道自己的思维链会被检查,它可能会把真实意图编码在看似无害的推理步骤中。
Pachocki 对此的回应是:这确实是一个严肃的挑战,但他相信我们可以通过技术手段来缓解。他提到更长期的对齐挑战是关于泛化——模型在训练环境之外会回退到什么价值观?这需要从根本上理解模型的泛化行为。
"A lot of the longer-term challenge with alignment is about generalization. What are the values that the model falls back on?"
所以更稳妥的结论不是「CoT 能解决对齐」,而是:可审计的中间步骤,可能为对齐提供额外但不完备的信号。
6. AI for Science:从 AlphaFold 到更远
Pachocki 对 AI 在科学中的应用持审慎乐观态度。他提到 OpenAI 在物理、数学等领域看到了令人鼓舞的结果,但距离 AlphaFold 式的革命性突破还有差距。
他的判断框架很有意思:AI 在科学中的价值,很大程度上取决于该领域是否存在可计算的反馈信号。 数学有(证明对错),蛋白质折叠有(结构可验证),但很多生物学和医学研究没有——你没法在几秒内验证一个生物学假说。
这意味着 AI for Science 的进步速度将极度不均匀:有可验证信号的领域会快速前进,没有的领域会慢得多。当然,反馈信号并非唯一因素——实验成本、数据采集周期、仿真精度、领域知识门槛也会影响落地速度。但那些「慢」领域,恰恰可能是对人类最重要的——比如癌症研究。
7. Harness 的演化:从脚手架到操作系统
Pachocki 花了不少时间讨论 Agent 的「harness」(控制层/脚手架——驱动 Agent 执行任务的代码框架)。他的核心观点是:
Harness 的演化方向是从硬编码的规则系统,向模型自身推理能力的转移。 早期 Agent 需要大量人类编写的流程控制——什么时候搜索、什么时候写代码、什么时候停下来检查。但随着模型推理能力提升,这些控制逻辑越来越多地由模型自己完成。
Pachocki 的视角更偏向模型能力本身——他认为 harness 的简化不是目的,而是模型能力提升后的自然结果。
他给公司的一条实用建议是:现在就应该为 agent 时代的到来做好准备,尤其是构建好内部基础设施——让模型能够访问文件、代码库、测试系统。 很多 agent 的失败不是因为模型不够聪明,而是因为 "the models actually can't access the context, the files, the infrastructure they need"。
8. OpenAI 的组织转型:从实验室到产品公司
Pachocki 坦诚地讨论了 OpenAI 的组织转型。作为一个研究型组织,OpenAI 正在经历一个「focusing moment」——从纯粹的研究驱动转向研究+产品双轨运行。
他的管理哲学值得关注:在不确定性极高的环境中,最重要的不是做对决策,而是快速识别并修正错误。 他用 o1 的研发举例——最初的假设很快被证伪,但团队快速调整了方向。
另一个有趣的细节:Pachocki 提到 OpenAI 内部的模型训练经常是并行推进的——多个实验同时跑,没有人事先知道哪个会跑出来。First Proof 挑战就是在这种背景下发生的:James Lee 在一次模型训练的间隙,随手用新模型试了试那些数学题——然后发现它真的解出来了。
9. 社会影响:紧迫感与审慎并存
Pachocki 在访谈结尾发出了他最强烈的呼吁:
"I think those are growing to be very urgent challenges. And I don't think there are challenges only for AI researchers. I think there are challenges for policy makers, but also just things we have to think through as a society."
他对就业问题的看法比外界预期的更务实:他认为 AI 会创造出「更多、更令人兴奋的事情」让人去做,但挑战在于判断哪些事情是重要的。而为了做出这种判断,人们仍然需要「某种对技术的理解」——不管是通过传统教育还是其他方式获得。
值得注意的是,他没有给出乐观主义的保证。他的基调是:变化正在加速,挑战正在变得紧迫,社会需要更多的讨论——而他很高兴看到讨论已经开始,但认为还远远不够。
10. 数据瓶颈与合成数据
Pachocki 还讨论了一个较少被关注的话题:数据瓶颈。他承认高质量人类数据正在变得越来越稀缺,但认为这不是根本性的障碍。
他的逻辑是:只要你有可靠的验证信号,就可以用合成数据来训练。代码和数学领域天然满足这个条件——你可以生成大量问题-解答对,然后自动验证。但在没有可靠验证信号的领域,合成数据的质量就无法保证。
这再次印证了前面的判断:如果可验证反馈信号这一瓶颈被缓解,数据与算力的利用效率可能显著提升;反之,单纯加算力的收益会受限。
三、延伸思考(以下是我的联想,不是访谈原话)
如果把 Pachocki 的框架抽象一下,我想到三条跨学科的呼应:
可验证性与证伪主义。 「可验证反馈信号」这个思路,与科学哲学家卡尔·波普尔的证伪主义形成了有趣的对应。波普尔认为,一个理论之所以是科学的,不是因为它能被证实,而是因为它能被证伪。Pachocki 的框架同理:一个领域能用 RL 推动发展,前提正是它存在可验证的反馈信号——而那些无法证伪的领域,恰恰也是 AI 难以用 RL 突破的领域。
Harness 演化与组织管理中的「去中心化」。 Pachocki 描述的 harness 从硬编码规则向模型自主推理的演化,与管理学中从科层制向自组织的演化高度同构。当员工(模型)能力足够强时,管理者(harness)的角色从事无巨细的流程控制转向设定方向和提供资源。而「模型需要访问基础设施」的洞察,恰好对应了管理学中「赋能」的核心——不是告诉能力者怎么做,而是移除他们做事的障碍。
反馈信号与控制论。 Pachocki 的整个框架可以用诺伯特·维纳的控制论来重新表述:AI 进步的速度取决于反馈回路的带宽和延迟。代码和数学领域的反馈回路带宽高、延迟低,所以进步快;医学研究的反馈回路带宽低、延迟高,所以进步慢。
这个联想能帮助理解访谈,但它属于我的解释,不应反过来当作 Pachocki 的明确主张。
四、批判性评价
Pachocki 的论证最有力之处,在于他提供了一个统一的理论框架来解释 OpenAI 的技术路线选择:从代码到数学到科学,每一步都是「找到可验证反馈信号 → 部署 RL 引擎」的循环。这个框架的简洁性和解释力都很强——它不仅解释了 OpenAI 过去做了什么,也预测了未来会往哪里走。
但这个框架有两个明显的盲区:
第一,它默认了一个未经证实的假设:所有重要的认知能力都可以通过 RL + 可验证信号来获得。 Pachocki 承认很多领域缺乏可靠的验证信号,但他似乎认为这只是暂时的问题——随着模型能力提升,会找到替代方案。然而,有一种可能性他没有讨论:某些关键的人类认知能力(如创造力、审美判断、道德推理)可能本质上不适合 RL 框架,不是因为反馈信号暂时不够好,而是因为这些能力的「好」本身就没有客观标准。这也是为什么偏好学习、模型评审、过程监督仍然重要——它们试图为「没有标准答案」的任务构造近似反馈。
第二,他对对齐问题的讨论过于技术化。 CoT 监控是一个有价值的技术方向,但 Pachocki 对 steganography 问题的回应——「我相信我们可以通过技术手段来缓解」——缺乏具体的论证。这更像是一种信念而非论据。而他对更深层问题的回避更值得关注:如果一个系统的推理能力足够强,它是否会在被监控时学会「表演」合规而在关键时刻偏离? 这个问题不能仅仅用技术手段来回答——它需要制度设计、多方博弈和持续的社会监督。
最后,Pachocki 对社会影响的讨论虽然诚恳,但缺乏具体性。他说「人们仍然需要对技术的理解」,但没有回答最关键的问题:当技术变化的速度远超教育和制度适应的速度时,这种「理解」该如何获得? 这不是一个修辞问题——它直接决定了他所期待的「更多社会讨论」是否可能发生。
五、我带走的 3 个观察
1. 基础设施可能比模型更重要。 Pachocki 反复强调,当前 Agent 的最大瓶颈不是模型不够聪明,而是它们无法访问完成任务所需的上下文和工具。打通模型与内部系统之间的接口——文件访问、代码仓库、测试框架、监控面板——可能比继续优化 prompt 更有性价比。当模型能力跃迁到来时,基础设施就绪的团队会先跑出来。
2. 在你的领域中寻找「可验证信号」。 按这个框架,AI 在你的领域进步的速度,很大程度上取决于你能否定义并自动验证「做对了」的标准。如果你能,就主动拥抱 RL——用自动化的反馈信号来驱动改进。如果你不能,就不应指望通用模型的进步能自动解决你的问题——你可能需要先在领域内部发明某种「等价于单元测试」的验证机制。
3. 可审计的中间步骤是重要但不完备的窗口。 Pachocki 把 CoT 定位为对齐监控的技术路径之一。这对实践者的启示是:当你使用推理模型时,不要只看最终输出,要检查中间推理过程。这不仅是调试的需要,也是理解模型行为的重要窗口之一。而如果你在构建 AI 系统,让推理过程可观测、可审计,应该放在较高优先级——因为可观测性既是对齐的前提,也是持续学习的基础。