2026/4/6 10:16:40
网站建设
项目流程
目录1.Agent的定义2.Agent的四个核心范式(1)Reflection(2)Tool use(3)Planning(4)Multi-agent CollaborationLangGraph:AutoGen:OpenAI Agents/AgentKit:1.Agent的定义Agent 是一个以大模型为核心、面向目标、能够在环境中感知—决策—行动—接收反馈,并在多轮过程中持续推进任务的系统。可以大致理解成下面这样的闭环:模型理解任务--是否需要规划/是否需要调用工具--执行动作--读取环境反馈--反思/修正--更新记忆与状态--判断是否终止,否则继续循环在Anthropic文档中有提,随着 Agent 变成长流程、多轮推理系统,工程重点正在从prompt engineering逐步转向context engineering,也就是“到底该把哪些信息、工具结果、历史状态、外部记忆放进当前上下文”。workflow与Agent的区别:workflow是预先写好路径的流程,代码已经决定了先做什么、后做什么;而agent则是让模型在运行时动态决定下一步怎么做、用什么工具、是否继续搜索、是否回退重试。因为Agent 往往用更高的延迟和成本,换来更强的灵活性和更好的任务表现。对于边界清晰、步骤稳定的任务,workflow往往更可靠;对于步骤数不确定、需要边探索边决策的任务,agent 才更合适。2.Agent的四个核心范式(1)Reflection参考论文:[2303.11366] Reflexion: Language Agents with Verbal Reinforcement Learning模型先生成一个结果,再基于错误信息、执行结果或自我审查进行修正。Agent不一定非要通过参数更新来学习,也可以通过语言反馈来学习:把测试失败、环境反馈或自我批评写成“反思文本”,再存进一个episodic memory buffer,供下一轮决策使用。区分working memory、semantic memory以及episodic memory:working memory是当前这次运行正在用的信息,比如当前用户问题、刚拿到的工具结果、当前计划、当前变量。semantic memory是事实性知识,它更像知识库或者知识图谱。episodic memory是亲身经历过的事件经验,重点是“那次发生了什么、在什么上下文下发生、结果如何”。如下图所示是论文中reflexion的架构图:首先Actor(语言模型)会根据当前任务、短期轨迹、长期经验,去和环境交互,环境会返回Obs/Reward,这个过程叫做“Trajectory”,Evaluator会对这条轨迹进行评估,Self-reflection会根据内部反馈或外部反馈生成反思(Reflective text),反思被存入Experience(长期记忆),下一轮Actor再利用这些经验继续行动。总的来说,Reflection会根据① 内部反馈,例如检查格式、逻辑、遗漏步骤;② 外部反馈,例如编译报错、SQL 执行失败、单元测试没过;③ 跨轮次积累的反思经验生成“反思文本”,供下一次决策使用。但Reflection也不是越多越好。它的收益主要来自有明确反馈信号的场景;如果任务本身没有可验证标准,只让模型不停“自我反思”,很容易变成无效内耗,甚至把正确答案改坏。论文和工程经验都说明,Reflection 更适合放在关键节点,比如工具失败后、草稿生成后、执行前审查,而不是每一步都强制来一次。(2)Tool useLLM 自身的参数知识是静态的,计算不一定精确,也不能天然访问数据库、网页、代码解释器或业务系统。但工具一接上,模型就从“只会生成文本”变成“能感知环境并采取行动”的系统。OpenAI把工具能力总结为以下四点:web search:连接互联网file search:连接私有文件库/vector storecomputer use:连接浏览器/桌面环境function calling:连接自定义的函数/APITool Use 的关键不是“工具越多越好”,而是