本期核心:Agent ≠ 大模型,它是「自主决策+行动能力」的系统,核心运行逻辑是「思考-行动-观察」闭环。
知识点拆解:
Agent定义:感知→推理→行动→迭代
四大特性:自主性、交互性、适应性、目标导向
运行循环:感知→思考→行动→观察→迭代
四大模块:LLM核心、记忆、工具、规划
多Agent协作:任务分发+结果传递+协同决策
待搞清的问题:
思维导图:
一、Agent基础概念与核心定义
AI Agent(智能体)是能够感知环境信息、自主进行逻辑推理、调用工具执行动作,并通过反馈迭代优化,最终完成复杂目标任务的AI系统,区别于传统仅能单向输出内容的生成式AI,它是具备「自主决策+行动能力」的AI应用新范式。
二、Agent的基本特性
自主性:无需人工逐步指令,可基于目标自主规划任务步骤、选择执行路径。
交互性:既能和用户进行自然语言交互,也能通过工具/API与现实世界(如天气系统、数据库、业务系统)交互。
适应性:可根据执行结果的反馈动态调整后续策略,应对任务中的不确定情况。
目标导向性:所有思考、行动都围绕最终目标展开,而非仅响应当前单次输入。
三、Agent整体运行逻辑
Agent的核心运行遵循「感知→思考→行动→反馈」的迭代闭环:
感知(Perception):接收用户输入的目标/任务,同时获取当前环境的上下文信息(如历史对话、已有数据)。
思考(Reasoning):大模型基于目标、上下文和自身能力边界,推理当前需要执行的步骤:是直接输出答案,还是需要调用工具获取额外信息,或是拆分任务子项。
行动(Action):根据思考结果执行对应操作,比如调用天气API、查询知识库、生成代码片段等。
观察(Observation):接收行动返回的结果(如API返回的城市天气、知识库检索到的文档内容),判断当前步骤是否完成目标。
迭代/输出:如果未达成目标,将观察结果作为新的上下文再次进入「思考-行动-观察」循环;如果目标完成,则向用户输出最终结果。
四、Agent核心架构组成及各模块作用、关联
Agent的核心架构由四大核心模块组成,彼此协同支撑完整任务流程:
| | |
|---|
| 作为Agent的「大脑」,负责理解任务目标、逻辑推理、决策下一步动作、生成最终输出内容。 | 接收「记忆模块」提供的上下文信息辅助推理,决策后调用「工具模块」执行动作,最终将结果输出给用户。 |
| 存储对话历史、任务上下文、用户偏好等信息,解决大模型「无状态」的问题,让Agent具备连贯交互能力。 | 为「大模型核心」的推理提供历史上下文支撑;记录「工具模块」的调用历史和返回结果,供后续任务迭代使用。 |
| 扩展Agent的能力边界,包含各类API接口、专属知识库、业务系统接口、代码执行器等,让Agent能获取实时信息、操作外部系统 | 接收「大模型核心」的调用指令,执行后把结果返回给「大模型核心」用于后续推理;调用记录会被「记忆模块」存储 |
| 负责将复杂大目标拆解为可执行的子任务序列,明确每个子任务的执行顺序、依赖关系,必要时可动态调整规划 | 基于「大模型核心」的推理能力实现,拆解任务时需要参考「记忆模块」中的历史任务经验,规划后的子任务会触发「工具模块」的执行 |
四个模块的协同逻辑:用户发起任务→记忆模块提供上下文给大模型核心→大模型核心通过任务规划模块拆解任务,决策调用工具模块→工具模块返回结果给大模型核心→若未完成任务则循环迭代,若完成则通过大模型核心输出最终结果,同时更新记忆模块的上下文。
五、多Agent协作的基础逻辑
当单个Agent无法完成复杂跨领域任务时,会采用多Agent协作模式:不同Agent拥有专属的能力定位(如有的负责用户需求分析、有的负责数据查询、有的负责结果校验),通过「任务分发-结果传递-协同决策」的机制配合,最终完成单个Agent无法处理的复杂任务,这也是后续实战中AutoGen、LangGraph、CrewAI等框架的核心应用场景。
#Agent#基础概念#架构#入门