AI入门学习笔记 07:AI 智能体的“动作”到底是什么?为什么它能和真实世界发生连接
聊智能体时,很多人容易把重点都放在“大模型会不会思考”上,但真正决定它能不能落地做事的,其实是另一个层面: 动作(Action) 。所谓动作,可以简单理解为: 智能体为了完成目标,向外部环境执行的一次具体操作。 比如搜索网页、查询数据库、调用 API、运行代码、控制软件,甚至和其他系统通信,这些都属于动作。换句话说,动作不是“想法”,而是 把想法变成执行 的那一步。 没有动作,智能体再会分析,也只是停留在“会说”; 有了动作,它才真正开始和环境发生连接。- 环境交互 :比如操作界面、控制设备、触发某个系统行为
- 通信协作 :比如和用户对话,或把任务交给其他智能体
这几类动作共同构成了智能体的“执行层”。 你可以把它理解成: 模型负责决策,动作负责落地。也就是模型不直接执行,而是先输出结构化指令,例如工具名、参数名、参数值。外部系统读取这段 JSON 后,再去执行对应动作。 这种方式的优点是清晰、稳定、容易解析,适合大多数工具调用场景。它本质上和 JSON 很像,只是把动作进一步规范成“调用哪个函数、传什么参数”。这种方式更适合和已有软件系统对接,也是现在很多 AI 应用采用的主流方式。这种方式更进一步,不是只输出一个简单动作,而是直接生成一段可执行代码,由代码去完成更复杂的任务。 比如智能体要比较多个国家的手机价格,如果只是靠一次次 JSON 调用,会非常繁琐;但如果生成一段代码,就可以用循环、判断、函数复用等方式,一次性把复杂流程跑完。- 集成能力更强 :适合连接数据库、API 和外部系统
不过,无论是 JSON、函数调用,还是代码,背后都有一个关键原则: 停止和解析(Stop and Parse) 。意思是,模型输出动作时,必须用一种明确、结构化、可解析的格式表达;输出到该停的地方就停,不要继续生成无关内容。然后由外部程序去解析这段结果,提取出真正要执行的工具和参数。action_ input: { "location": "New York" }外部系统一看就知道:要调用天气工具,参数是纽约。 这种方式最大的价值,就是 减少歧义,让机器能准确接管执行 。所以这部分真正要理解的是: 智能体并不是直接“伸手去做事”,而是先用一种机器可读的方式,把要执行的动作描述清楚,再由外部系统完成落地。一句话总结: 动作,是连接智能体内部推理与外部世界执行的桥梁。 而 JSON、函数调用、代码,本质上都是在回答同一个问题: 怎么把 AI 的意图,稳定地翻译成系统真正能执行的操作。这也是为什么,智能体的关键不只是“会不会想”,更在于它能不能把想法准确转成动作,并让环境正确执行。