学习笔记· 系列 01
最近我在系统学AI Agent。之前碎片化的学习让自己对ai agent的了解只是停在概念和Demo 层面,所以我给自己定了一个学习标准,每学完一个模块,就沉淀一套能复用、能审计、能迭代的工程骨架,让我可以最终获得自主开发的能力。
这篇是系列的第01 篇,也是"第一节课"的梳理:我怎么定义 Agent、怎么拆组件,以及为什么把 AI 界面 + 门禁(Gate)+ 证据包(Evidence Pack)当成落地的真正关键。
说明
本文所说"AI 界面",指面向 Agent 的工具/数据可调用入口,包含权限约束、返回结构与审计要求。
0 学习目标与产出物
我的学习目标不是了解概念,而是形成一条可复用的能力链,从理论框架出发,逐步沉淀为工程规范与代码资产,最终能自主开发可控、可审计的AI Agent。
每个模块的学习产出我固定为三类工件:
•概念框架:关键定义、边界条件、与相邻概念的区分(可复述)
•工程骨架:组件拆解、接口契约、数据结构、门禁策略(可实现)
•最小可运行实现(MVP):一个端到端跑通的样例,附日志/回放与基础评测(可验证)
这也是我写学习笔记而不是读书摘录的原因:每一篇都要能回到开发与交付。
阅读建议
① 先通读各节要点,建立概念框架
② 用"3 分钟自测"检验理解是否到位
③ 参考"最小落地示例",把概念映射到自己的业务场景
01 我怎么定义 Agent:不是"会说",而是"能交付"
本文对Agent 用一个工作性定义:
Agent = 围绕一个目标,能持续采取行动、调用工具与数据,并交付结果的系统。
关键词是三个:目标/ 行动 / 交付。
只输出文字但不推进任务的,更像聊天机器人。能执行但不可追踪、不可回放的,无法进入生产。能交付+ 可复盘 + 可控,才是我说的"落地 Agent"。
后续提到的Gate / Evidence Pack / 日志与回放,分别对应工程判定标准中的可控性、可验证性、可复现性。
02 用 5 个组件搭 Agent,像搭系统
我不强调具体框架,而强调组件是否齐备、职责是否清晰。这是我的最小工程骨架:
▍组件1:角色设定(Persona)——负责边界与风格稳定
角色设定的目的不是拟人,而是稳定行为边界与响应风格。建议以"工作说明书"方式定义:
•目标是什么、交付物是什么
•不确定时怎么做(追问?降级?停止?)
•禁止事项(例如:不允许编造依据、不允许越权写入)
•输出格式(用于下游系统消费)
▍组件2:动作与工具(Actions / Tools)——负责"能干活"
Agent 的能力上限通常来自工具,而不是模型本身的智商。我的工具按"查/算/写"三类来设计:
•查:搜索、知识库检索、数据库查询
•算:规则判断、代码执行、表格计算
•写:写文档、更新字段、触发流程/自动化
工程实践中有一条规矩:工具接口尽量窄、返回结构化、错误语义清晰。这样能大幅降低工具误用与不可用输出的概率。
▍组件3:知识与记忆(Knowledge & Memory)——负责执行连贯、引用
任务一复杂,纯对话上下文一定不够用。我把"知识"拆成三层:
•公共知识:制度、流程、FAQ、规范、产品文档
•个性化记忆:个人偏好、常用模板、历史决策、复用策略
•本次任务证据:这次检索到的材料、关键摘录、链接与数据
我很看重"证据层",因为它直接决定了:这次输出能不能审、能不能复核、能不能追责。
▍组件4:推理与评估(Reasoning & Evaluation)——负责自检与质量门禁
很多Agent 翻车不是不会做,而是不会检查。所以我会加两道机制:
•自检:格式是否合规?关键字段是否缺失?是否引用不足?
•门禁(Gate):触发条件就必须停下来请求确认。常见触发场景:证据不足、涉及高风险动作(写库/发通知/触达客户)、结论影响重大(合规/财务/权益)
门禁策略建议采用fail-closed:默认保守(停止/转人工/降级),而非默认继续执行。
▍组件5:规划与反馈(Planning & Feedback)——负责把任务跑通
真正的任务不是"一次生成",而是一个循环:
1.拆解步骤(计划)
2.调用工具(执行)
3.读取返回(环境反馈)
4.必要时请求人工确认(人类反馈)
5.修正并继续,直到满足交付标准
执行策略上,我推荐"短计划 + 快反馈"的迭代式推进,降低长计划在动态环境下的偏差。
03 用 4 种交互层级判断:我在做 Prompt 还是 Agent?
为避免"感觉做了 Agent,其实只是提示词更长",我用这 4 层做自查:
•直接对话:适合解释、写作、头脑风暴
•带代理层对话:做上下文管理、模板化输出
•工具型Agent:能查/能算/能写入,按明确流程交付
•自主Agent:给目标,自己拆解、执行、迭代(对门禁与审计要求显著更高)
我目前的结论是:生产落地从第3 层开始最划算。第4 层能力更强,但对安全性、稳定性与可控性的工程投入也会成倍增加。
04 为什么强调"AI 界面":Agent 时代的软件入口
上一节讨论的是Agent 的内部组件;这一节要说的是:这些组件如何在系统层面获得可调用的工具与数据入口。
传统软件的入口是按钮、菜单、表单、API 文档。但 Agent 要做事,关键变成了:工具与数据能不能被"统一暴露并可控调用"。
我把这层叫AI 界面,工程上通常包含:
•工具清单(能调用什么)
•数据入口(能查什么、字段是什么)
•约束与权限(哪些只读、哪些要审批)
•返回结构(输出怎么被下游系统消费)
•日志与审计(每一步能否回放)
当AI 界面设计完善时,Agent 更接近"系统能力的编排与执行层",而不是"仅基于语言生成的交互入口"。
05 这一节沉淀的"最小落地清单"
如果只记住一件事:Agent = 组件化工程 + 门禁审计,不是提示词堆叠。
我自己的落地顺序通常是这样的:
1.先定义交付物标准(什么叫完成)
2.再定义工具与数据边界(能查能写什么)
3.再搭知识/证据结构(Evidence Pack)
4.再加自检与门禁(Gate,fail-closed)
5.最后才追求更高自主性(多步自动执行)
本文为作者学习笔记整理,非原文摘录,转载请注明出处