当前位置：首页>学习笔记>AI Agent 学习笔记 01从＂能聊天＂到＂能交付＂

AI Agent 学习笔记 01从＂能聊天＂到＂能交付＂

2026-05-07 08:35:35

学习笔记· 系列 01

最近我在系统学AI Agent。之前碎片化的学习让自己对ai agent的了解只是停在概念和Demo 层面，所以我给自己定了一个学习标准，每学完一个模块，就沉淀一套能复用、能审计、能迭代的工程骨架，让我可以最终获得自主开发的能力。

这篇是系列的第01 篇，也是"第一节课"的梳理：我怎么定义 Agent、怎么拆组件，以及为什么把 AI 界面 + 门禁（Gate）+ 证据包（Evidence Pack）当成落地的真正关键。

说明

本文所说"AI 界面"，指面向 Agent 的工具/数据可调用入口，包含权限约束、返回结构与审计要求。

0 学习目标与产出物

我的学习目标不是了解概念，而是形成一条可复用的能力链，从理论框架出发，逐步沉淀为工程规范与代码资产，最终能自主开发可控、可审计的AI Agent。

每个模块的学习产出我固定为三类工件：

•概念框架：关键定义、边界条件、与相邻概念的区分（可复述）

•工程骨架：组件拆解、接口契约、数据结构、门禁策略（可实现）

•最小可运行实现（MVP）：一个端到端跑通的样例，附日志/回放与基础评测（可验证）

这也是我写学习笔记而不是读书摘录的原因：每一篇都要能回到开发与交付。

阅读建议

① 先通读各节要点，建立概念框架

② 用"3 分钟自测"检验理解是否到位

③ 参考"最小落地示例"，把概念映射到自己的业务场景

01 我怎么定义 Agent：不是"会说"，而是"能交付"

本文对Agent 用一个工作性定义：

Agent = 围绕一个目标，能持续采取行动、调用工具与数据，并交付结果的系统。

关键词是三个：目标/ 行动 / 交付。

只输出文字但不推进任务的，更像聊天机器人。能执行但不可追踪、不可回放的，无法进入生产。能交付+ 可复盘 + 可控，才是我说的"落地 Agent"。

后续提到的Gate / Evidence Pack / 日志与回放，分别对应工程判定标准中的可控性、可验证性、可复现性。

02 用 5 个组件搭 Agent，像搭系统

我不强调具体框架，而强调组件是否齐备、职责是否清晰。这是我的最小工程骨架：

▍组件1：角色设定（Persona）——负责边界与风格稳定

角色设定的目的不是拟人，而是稳定行为边界与响应风格。建议以"工作说明书"方式定义：

•目标是什么、交付物是什么

•不确定时怎么做（追问？降级？停止？）

•禁止事项（例如：不允许编造依据、不允许越权写入）

•输出格式（用于下游系统消费）

▍组件2：动作与工具（Actions / Tools）——负责"能干活"

Agent 的能力上限通常来自工具，而不是模型本身的智商。我的工具按"查/算/写"三类来设计：

•查：搜索、知识库检索、数据库查询

•算：规则判断、代码执行、表格计算

•写：写文档、更新字段、触发流程/自动化

工程实践中有一条规矩：工具接口尽量窄、返回结构化、错误语义清晰。这样能大幅降低工具误用与不可用输出的概率。

▍组件3：知识与记忆（Knowledge & Memory）——负责执行连贯、引用

任务一复杂，纯对话上下文一定不够用。我把"知识"拆成三层：

•公共知识：制度、流程、FAQ、规范、产品文档

•个性化记忆：个人偏好、常用模板、历史决策、复用策略

•本次任务证据：这次检索到的材料、关键摘录、链接与数据

我很看重"证据层"，因为它直接决定了：这次输出能不能审、能不能复核、能不能追责。

▍组件4：推理与评估（Reasoning & Evaluation）——负责自检与质量门禁

很多Agent 翻车不是不会做，而是不会检查。所以我会加两道机制：

•自检：格式是否合规？关键字段是否缺失？是否引用不足？

•门禁（Gate）：触发条件就必须停下来请求确认。常见触发场景：证据不足、涉及高风险动作（写库/发通知/触达客户）、结论影响重大（合规/财务/权益）

门禁策略建议采用fail-closed：默认保守（停止/转人工/降级），而非默认继续执行。

▍组件5：规划与反馈（Planning & Feedback）——负责把任务跑通

真正的任务不是"一次生成"，而是一个循环：

1.拆解步骤（计划）

2.调用工具（执行）

3.读取返回（环境反馈）

4.必要时请求人工确认（人类反馈）

5.修正并继续，直到满足交付标准

执行策略上，我推荐"短计划 + 快反馈"的迭代式推进，降低长计划在动态环境下的偏差。

03 用 4 种交互层级判断：我在做 Prompt 还是 Agent？

为避免"感觉做了 Agent，其实只是提示词更长"，我用这 4 层做自查：

•直接对话：适合解释、写作、头脑风暴

•带代理层对话：做上下文管理、模板化输出

•工具型Agent：能查/能算/能写入，按明确流程交付

•自主Agent：给目标，自己拆解、执行、迭代（对门禁与审计要求显著更高）

我目前的结论是：生产落地从第3 层开始最划算。第4 层能力更强，但对安全性、稳定性与可控性的工程投入也会成倍增加。

04 为什么强调"AI 界面"：Agent 时代的软件入口

上一节讨论的是Agent 的内部组件；这一节要说的是：这些组件如何在系统层面获得可调用的工具与数据入口。

传统软件的入口是按钮、菜单、表单、API 文档。但 Agent 要做事，关键变成了：工具与数据能不能被"统一暴露并可控调用"。

我把这层叫AI 界面，工程上通常包含：

•工具清单（能调用什么）

•数据入口（能查什么、字段是什么）

•约束与权限（哪些只读、哪些要审批）

•返回结构（输出怎么被下游系统消费）

•日志与审计（每一步能否回放）

当AI 界面设计完善时，Agent 更接近"系统能力的编排与执行层"，而不是"仅基于语言生成的交互入口"。

05 这一节沉淀的"最小落地清单"

如果只记住一件事：Agent = 组件化工程 + 门禁审计，不是提示词堆叠。

我自己的落地顺序通常是这样的：

1.先定义交付物标准（什么叫完成）

2.再定义工具与数据边界（能查能写什么）

3.再搭知识/证据结构（Evidence Pack）

4.再加自检与门禁（Gate，fail-closed）

5.最后才追求更高自主性（多步自动执行）

本文为作者学习笔记整理，非原文摘录，转载请注明出处

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

AI Agent 学习笔记 01从＂能聊天＂到＂能交付＂

最新文章

热门文章

随机文章

AI Agent 学习笔记 01从＂能聊天＂到＂能交付＂

民情笔记丨一间学习角,点亮党员心

学习笔记:格雷厄姆的发明-市盈率PE

最新文章

热门文章

随机文章