——智能体(Agent)研究、人机交互与 AI 的下半场 ——
学习素材来源:张小珺 Jùn|商业访谈录 - Podcast
2025年9月11日,《对 OpenAI 姚顺雨 3 小时访谈:6 年 Agent 研究、人与系统、吞噬的边界、既单极又多元的世界》
本文为播客访谈内容的学习笔记整理,仅供个人学习参考
摘要
2025年9月,该播客发布之时,姚顺雨尚未加入腾讯,本笔记基于2025年4月对彼时尚在 OpenAI 任研究员的姚顺雨的深度访谈,系统性地梳理了他当时在智能体(Agent)领域六年的研究积淀、对大模型演进路径的洞察,以及对未来 AI 产业格局的预判。
核心观点如下:
•语言的本质:语言是人类为了实现“泛化”(Generalization)而发明的工具,提供推理能力,是构建通用智能体的核心。
•“下半场”转型:AI 竞争的主线已从“如何制造通用武器(模型训练)”转向“朝哪里开枪(任务定义与环境构建)”。
•交互创新是创业壁垒:创业公司应避免直接竞争 ChatGPT 式的“助手”形态,而应利用模型溢出能力,探索如 Cursor 般的非人际化新交互范式。
•未来技术突破口:长期记忆(Memory)、内在奖惩机制(Intrinsic Reward)以及多智能体协同(Multi-agent)是通往 AGI 高级阶段(组织者与创新者)的关键。
一、智能体的定义与演进逻辑
姚顺雨将智能体(Agent)定义为能够进行自我决策、与环境交互并优化奖励(Reward)的系统。他从 AI 历史视角将其划分为三个主要阶段:
阶段 | 核心技术 | 特点 | 局限性 |
第一波:符号主义 | 专家系统、规则集 | 注重逻辑推理 | 规则无法涵盖所有特殊情况,缺乏泛化性 |
第二波:深度强化学习 | 深度学习 + RL(如 AlphaGo) | 在封闭/虚拟环境中表现极强 | 缺乏泛化能力,无法迁移到不同环境;工程化成本高 |
第三波:大语言模型(LLM) | 语言模型作为推理核心 | 利用语言先验知识推理,具备跨环境泛化能力 | 在长期记忆和上下文管理上仍有挑战 |
核心洞察:语言智能体与传统智能体的本质区别在于推理能力。推理使得智能体能够面对全新环境时,通过思考(如:灯黑了可能有危险 → 需要找灯 → 寻找路径)而非单纯依赖海量数据训练来解决问题。
二、智能体研究的“下半场”:任务重于方法
姚顺雨在 2025 年发布博文《The Second Half》,提出 AI 进入“下半场”,标志着方法论的基点时刻已经到来。
1. 从“造武器”到“选目标”
•上半场:解决 Transformer、预训练(Pre-training)等基础技术,制造出像“机关枪”一样的通用工具。
•下半场:通用方法已基本确立。现在的核心挑战是定义好的任务、构建好的环境、设计合理的奖励函数。
2. 奖励函数(Reward)的设计准则
•基于结果(Outcome-based):避开过程引导,减少模型“刷分(Hacking)”风险。
•基于规则(Rule-based):倾向于像数学(答案唯一)或编程(编译运行)这类具有清晰、确定、白盒反馈的任务。
•反对偏好(Anti-preference):避免过度依赖人类或模型的黑盒偏好,因为这会导致虚假的优美表达而非解决实际问题。
3. 代码(Coding)是 AI 的“手”
代码是数字世界中唯一专为机器定义、反馈闭环且天然适合推理的环境。它是实现 AGI 最重要的“affordance(可供性)”。
三、OpenAI 的技术路径与组织哲学
访谈中披露了 OpenAI 内部关于技术选择的一些关键细节:
非共识的博弈
在 GPT-1 开发时期,甚至其作者团队也曾怀疑路径的有效性。Ilya Sutskever 的核心贡献在于其坚定的“All-in”信念,坚信通过 Scaling Law(缩放定律)可以解决语言问题。
强化学习(RL)的地位
OpenAI 从未放弃强化学习。尽管 GPT 成为主线,但 RL 在 RLHF(基于人类反馈的强化学习)和模型对齐(Alignment)中发挥了使模型成为“产品”的关键作用。
OpenAI 的五级分类逻辑
级别 | 名称 | 能力描述 |
L1 | 聊天机器人(Chatbots) | 基础交互 |
L2 | 推理者(Reasoners) | 具备思维链推理 |
L3 | 代理者(Agents) | 具备环境交互与行动力(姚目前的研究重点) |
L4 | 创新者(Innovators) | 具备长期记忆与内在激励,能发现新规律 |
L5 | 组织者(Organizations) | 多智能体协作 |
四、创业机会与人机交互的未来
针对创业公司对被大模型厂商“吞噬”的担忧,姚顺雨提出了差异化竞争策略:
1. 交互范式的创新
•路径依赖:模型公司(如 OpenAI、Anthropic)受限于其 Super App(如 ChatGPT),其研究和产品逻辑会高度中心化,倾向于“助手/聊天”形态。
•非人际交互:创业公司的机会在于探索“不像人”的交互方式。例如 Cursor,它不是对话框,而是嵌入开发环境的实时编辑与提示。
•Canvas 模式:另一种值得探索的方向是在线生成最符合当前情境、任务和用户个性的前端交互界面。
2. 壁垒的构建
•长期记忆与上下文:这是产生粘性的核心。谁能更好地积累和管理用户的私有上下文(User Context),谁就能提供模型本身无法替代的差异化体验。
•数据飞轮:成功的应用(如 Midjourney)需要建立清晰的、与商业成功对齐的奖励机制,从而实现数据的自我演进。
五、AGI 的终极挑战:人与机器的边界
1. 记忆与意识
•姚顺雨引用冯·诺伊曼的观点:“环境始终是记忆层次的最外层”。长期记忆可以通过无限长的 Context 实现,也可以通过外部工具(Notion、Google Docs)实现。
•当系统能够处理极度复杂的 Context,并具备高度自主的决策权时,它在客观上可能就被视为具备了“意识”。
2. 内在奖励(Intrinsic Reward)
•人类创新者(如爱因斯坦)在没有外部奖赏时仍能持续探索,源于类似婴儿的“好奇心”或“掌控感”。
•赋予 AI 内在动机是通向“创新者(Level 4)”的关键,这目前在文字游戏(逻辑世界)中比在物理模拟中更难实现。
3. 社会结构:单极与多元
•技术会加剧中心化(资源、算力集中于巨头),但同时也会加速个体从边缘走向中心的速度。
•未来的世界将是单极(巨头提供底座)与多元(无数垂直 Agent 解决特定问题)并存的。
六、给研究者与创业者的建议
对研究者
敢于推翻基本假设(如:评估模型不应只看 500 个独立任务的平均分,而应看其在一家公司工作 30 天后的成长)。
对创业者
•技术只是手段,找到能产生增量价值的“痛点任务”是第一位的。
•不必执着于从头训练模型,成本与收益往往不成正比。
•应重点思考:智能体与数字世界的交互环境(如 MCP、API)以及人与代理的协作模式。
结论
2025 年是智能体大爆发的起点,因为推理、语言先验和强化学习的方法论已首次完成统合。在这个阶段,想象力对交互方式的重构将比单纯的技术迭代更具颠覆性。
📝 来源与出处
播客节目:张小珺 Jùn|商业访谈录(Podcast)
节目标题:《对 OpenAI 姚顺雨 3 小时访谈:6 年 Agent 研究、人与系统、吞噬的边界、既单极又多元的世界》
受访嘉宾:姚顺雨(Shunyu Yao),彼时的OpenAI 研究员,Agent 方向
收听平台:小宇宙 FM / Apple Podcasts 等主流播客平台
相关博文:姚顺雨《The Second Half》(2025 年 4 月发布)
本文为上述播客访谈内容的学习笔记整理,不代表任何机构立场,仅供个人学习与参考使用。