当前位置：首页>学习笔记>AI入门学习笔记 07:AI 智能体的“动作”到底是什么?为什么它能和真实世界发生连接

AI入门学习笔记 07:AI 智能体的“动作”到底是什么?为什么它能和真实世界发生连接

2026-04-17 10:49:10

聊智能体时，很多人容易把重点都放在“大模型会不会思考”上，但真正决定它能不能落地做事的，其实是另一个层面：动作（Action）。

所谓动作，可以简单理解为：智能体为了完成目标，向外部环境执行的一次具体操作。比如搜索网页、查询数据库、调用 API、运行代码、控制软件，甚至和其他系统通信，这些都属于动作。

换句话说，动作不是“想法”，而是把想法变成执行的那一步。没有动作，智能体再会分析，也只是停留在“会说”；有了动作，它才真正开始和环境发生连接。

Part.01

智能体动作的分类

智能体的动作大致可以分成几类：

信息收集：比如搜索网络、查数据库、读取文档

工具使用：比如调用计算器、API、脚本或函数

环境交互：比如操作界面、控制设备、触发某个系统行为

通信协作：比如和用户对话，或把任务交给其他智能体

这几类动作共同构成了智能体的“执行层”。你可以把它理解成：模型负责决策，动作负责落地。

Part.02

动作的常见表示方式

那动作是怎么表示出来的？常见有三种方式。

JSON 智能体

也就是模型不直接执行，而是先输出结构化指令，例如工具名、参数名、参数值。外部系统读取这段 JSON 后，再去执行对应动作。这种方式的优点是清晰、稳定、容易解析，适合大多数工具调用场景。

函数调用智能体

它本质上和 JSON 很像，只是把动作进一步规范成“调用哪个函数、传什么参数”。这种方式更适合和已有软件系统对接，也是现在很多 AI 应用采用的主流方式。

代码智能体（Code Agent）

这种方式更进一步，不是只输出一个简单动作，而是直接生成一段可执行代码，由代码去完成更复杂的任务。比如智能体要比较多个国家的手机价格，如果只是靠一次次 JSON 调用，会非常繁琐；但如果生成一段代码，就可以用循环、判断、函数复用等方式，一次性把复杂流程跑完。

这也是代码智能体的几个明显优势：

表达能力更强：能处理复杂逻辑

模块化更好：代码可以复用

更容易调试：出错时更容易定位问题

集成能力更强：适合连接数据库、API 和外部系统

Part.03

动作输出的关键原则

不过，无论是 JSON、函数调用，还是代码，背后都有一个关键原则：停止和解析（Stop and Parse）。

意思是，模型输出动作时，必须用一种明确、结构化、可解析的格式表达；输出到该停的地方就停，不要继续生成无关内容。然后由外部程序去解析这段结果，提取出真正要执行的工具和参数。

例如要查询纽约天气，模型可以输出一段类似：

action: get_ weather

action_ input: { "location": "New York" }

外部系统一看就知道：要调用天气工具，参数是纽约。这种方式最大的价值，就是减少歧义，让机器能准确接管执行。

Part.04

总结

所以这部分真正要理解的是：智能体并不是直接“伸手去做事”，而是先用一种机器可读的方式，把要执行的动作描述清楚，再由外部系统完成落地。

一句话总结：动作，是连接智能体内部推理与外部世界执行的桥梁。而 JSON、函数调用、代码，本质上都是在回答同一个问题：怎么把 AI 的意图，稳定地翻译成系统真正能执行的操作。

这也是为什么，智能体的关键不只是“会不会想”，更在于它能不能把想法准确转成动作，并让环境正确执行。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

AI入门学习笔记 07:AI 智能体的“动作”到底是什么?为什么它能和真实世界发生连接

最新文章

热门文章

随机文章

AI入门学习笔记 07:AI 智能体的“动作”到底是什么?为什么它能和真实世界发生连接

六西格玛管理学习笔记

【学习资料】绿水青山里的政绩观

最新文章

热门文章

随机文章