当前位置：首页>学习笔记>【学习笔记】OpenAI姚顺雨访谈笔记-智能体研究与AI下半场

【学习笔记】OpenAI姚顺雨访谈笔记-智能体研究与AI下半场

2026-05-30 10:32:37

——智能体（Agent）研究、人机交互与 AI 的下半场 ——

学习素材来源：张小珺 Jùn｜商业访谈录 - Podcast

2025年9月11日，《对 OpenAI 姚顺雨 3 小时访谈：6 年 Agent 研究、人与系统、吞噬的边界、既单极又多元的世界》

本文为播客访谈内容的学习笔记整理，仅供个人学习参考

摘要

2025年9月，该播客发布之时，姚顺雨尚未加入腾讯，本笔记基于2025年4月对彼时尚在 OpenAI 任研究员的姚顺雨的深度访谈，系统性地梳理了他当时在智能体（Agent）领域六年的研究积淀、对大模型演进路径的洞察，以及对未来 AI 产业格局的预判。

核心观点如下：

•语言的本质：语言是人类为了实现“泛化”（Generalization）而发明的工具，提供推理能力，是构建通用智能体的核心。

•“下半场”转型：AI 竞争的主线已从“如何制造通用武器（模型训练）”转向“朝哪里开枪（任务定义与环境构建）”。

•交互创新是创业壁垒：创业公司应避免直接竞争 ChatGPT 式的“助手”形态，而应利用模型溢出能力，探索如 Cursor 般的非人际化新交互范式。

•未来技术突破口：长期记忆（Memory）、内在奖惩机制（Intrinsic Reward）以及多智能体协同（Multi-agent）是通往 AGI 高级阶段（组织者与创新者）的关键。

一、智能体的定义与演进逻辑

姚顺雨将智能体（Agent）定义为能够进行自我决策、与环境交互并优化奖励（Reward）的系统。他从 AI 历史视角将其划分为三个主要阶段：

阶段	核心技术	特点	局限性
第一波：符号主义	专家系统、规则集	注重逻辑推理	规则无法涵盖所有特殊情况，缺乏泛化性
第二波：深度强化学习	深度学习 + RL（如 AlphaGo）	在封闭/虚拟环境中表现极强	缺乏泛化能力，无法迁移到不同环境；工程化成本高
第三波：大语言模型（LLM）	语言模型作为推理核心	利用语言先验知识推理，具备跨环境泛化能力	在长期记忆和上下文管理上仍有挑战

核心洞察：语言智能体与传统智能体的本质区别在于推理能力。推理使得智能体能够面对全新环境时，通过思考（如：灯黑了可能有危险 → 需要找灯 → 寻找路径）而非单纯依赖海量数据训练来解决问题。

二、智能体研究的“下半场”：任务重于方法

姚顺雨在 2025 年发布博文《The Second Half》，提出 AI 进入“下半场”，标志着方法论的基点时刻已经到来。

1. 从“造武器”到“选目标”

•上半场：解决 Transformer、预训练（Pre-training）等基础技术，制造出像“机关枪”一样的通用工具。

•下半场：通用方法已基本确立。现在的核心挑战是定义好的任务、构建好的环境、设计合理的奖励函数。

2. 奖励函数（Reward）的设计准则

•基于结果（Outcome-based）：避开过程引导，减少模型“刷分（Hacking）”风险。

•基于规则（Rule-based）：倾向于像数学（答案唯一）或编程（编译运行）这类具有清晰、确定、白盒反馈的任务。

•反对偏好（Anti-preference）：避免过度依赖人类或模型的黑盒偏好，因为这会导致虚假的优美表达而非解决实际问题。

3. 代码（Coding）是 AI 的“手”

代码是数字世界中唯一专为机器定义、反馈闭环且天然适合推理的环境。它是实现 AGI 最重要的“affordance（可供性）”。

三、OpenAI 的技术路径与组织哲学

访谈中披露了 OpenAI 内部关于技术选择的一些关键细节：

非共识的博弈

在 GPT-1 开发时期，甚至其作者团队也曾怀疑路径的有效性。Ilya Sutskever 的核心贡献在于其坚定的“All-in”信念，坚信通过 Scaling Law（缩放定律）可以解决语言问题。

强化学习（RL）的地位

OpenAI 从未放弃强化学习。尽管 GPT 成为主线，但 RL 在 RLHF（基于人类反馈的强化学习）和模型对齐（Alignment）中发挥了使模型成为“产品”的关键作用。

OpenAI 的五级分类逻辑

级别	名称	能力描述
L1	聊天机器人（Chatbots）	基础交互
L2	推理者（Reasoners）	具备思维链推理
L3	代理者（Agents）	具备环境交互与行动力（姚目前的研究重点）
L4	创新者（Innovators）	具备长期记忆与内在激励，能发现新规律
L5	组织者（Organizations）	多智能体协作

四、创业机会与人机交互的未来

针对创业公司对被大模型厂商“吞噬”的担忧，姚顺雨提出了差异化竞争策略：

1. 交互范式的创新

•路径依赖：模型公司（如 OpenAI、Anthropic）受限于其 Super App（如 ChatGPT），其研究和产品逻辑会高度中心化，倾向于“助手/聊天”形态。

•非人际交互：创业公司的机会在于探索“不像人”的交互方式。例如 Cursor，它不是对话框，而是嵌入开发环境的实时编辑与提示。

•Canvas 模式：另一种值得探索的方向是在线生成最符合当前情境、任务和用户个性的前端交互界面。

2. 壁垒的构建

•长期记忆与上下文：这是产生粘性的核心。谁能更好地积累和管理用户的私有上下文（User Context），谁就能提供模型本身无法替代的差异化体验。

•数据飞轮：成功的应用（如 Midjourney）需要建立清晰的、与商业成功对齐的奖励机制，从而实现数据的自我演进。

五、AGI 的终极挑战：人与机器的边界

1. 记忆与意识

•姚顺雨引用冯·诺伊曼的观点：“环境始终是记忆层次的最外层”。长期记忆可以通过无限长的 Context 实现，也可以通过外部工具（Notion、Google Docs）实现。

•当系统能够处理极度复杂的 Context，并具备高度自主的决策权时，它在客观上可能就被视为具备了“意识”。

2. 内在奖励（Intrinsic Reward）

•人类创新者（如爱因斯坦）在没有外部奖赏时仍能持续探索，源于类似婴儿的“好奇心”或“掌控感”。

•赋予 AI 内在动机是通向“创新者（Level 4）”的关键，这目前在文字游戏（逻辑世界）中比在物理模拟中更难实现。

3. 社会结构：单极与多元

•技术会加剧中心化（资源、算力集中于巨头），但同时也会加速个体从边缘走向中心的速度。

•未来的世界将是单极（巨头提供底座）与多元（无数垂直 Agent 解决特定问题）并存的。

六、给研究者与创业者的建议

对研究者

敢于推翻基本假设（如：评估模型不应只看 500 个独立任务的平均分，而应看其在一家公司工作 30 天后的成长）。

对创业者

•技术只是手段，找到能产生增量价值的“痛点任务”是第一位的。

•不必执着于从头训练模型，成本与收益往往不成正比。

•应重点思考：智能体与数字世界的交互环境（如 MCP、API）以及人与代理的协作模式。

结论

2025 年是智能体大爆发的起点，因为推理、语言先验和强化学习的方法论已首次完成统合。在这个阶段，想象力对交互方式的重构将比单纯的技术迭代更具颠覆性。

📝 来源与出处

播客节目：张小珺 Jùn｜商业访谈录（Podcast）

节目标题：《对 OpenAI 姚顺雨 3 小时访谈：6 年 Agent 研究、人与系统、吞噬的边界、既单极又多元的世界》

受访嘉宾：姚顺雨（Shunyu Yao），彼时的OpenAI 研究员，Agent 方向

收听平台：小宇宙 FM / Apple Podcasts 等主流播客平台

相关博文：姚顺雨《The Second Half》（2025 年 4 月发布）

本文为上述播客访谈内容的学习笔记整理，不代表任何机构立场，仅供个人学习与参考使用。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

【学习笔记】OpenAI姚顺雨访谈笔记-智能体研究与AI下半场

最新文章

热门文章

随机文章

【学习笔记】OpenAI姚顺雨访谈笔记-智能体研究与AI下半场

学习笔记:辨证之八纲辨证(寒热辨证)

巽卦学习笔记

最新文章

热门文章

随机文章