提示词工程已死?Anthropic力推的上下文工程才是Agent时代真解法
2026/4/6 10:26:11 网站建设 项目流程
做AI开发的朋友应该都经历过这个阶段为了调出理想的结果反复打磨提示词在请用专业口吻和请说人话之间来回折腾。但风向变了。当大家还在卷提示工程Prompt Engineering时一个更底层的概念已经冒出来了——上下文工程Context Engineering。说白了我们不再只问怎么说能让AI听懂而是开始想给AI一个什么样的信息环境它才能干出高质量的活特别是现在Agent越来越多任务越来越复杂指望AI能自主搞定一件事上下文工程的重要性就愈发明显了。Anthropic最近发了篇长文讲这个 《effective-context-engineering-for-ai-agents》有兴趣可以去啃原文。懒得看的往下看我的总结。01 为什么上下文重要你可能遇到过这种情况让AI帮你重构一个代码库最开始它答得挺好但做到第三步就开始犯傻——不是忘了之前的修改就是把完全不相关的东西混在一起。这不全是模型变笨了而是上下文出了问题。Agent的特殊性多轮推理的上下文累积对于单轮问答应用上下文管理相对简单。但Agent不是单轮的——一个任务往往要经过数十轮甚至上百轮推理循环。Anthropic的Claude Code在处理复杂任务时平均会进行50次工具调用。Manus团队的数据也显示典型任务平均要调用50次工具。这意味着什么每一轮都会产生三类信息工具调用参数模型决定调用什么工具、传什么参数工具返回结果代码片段、错误日志、文件内容、网络请求结果中间推理模型的思考过程、决策依据这些信息会不断累积在上下文中。50轮下来上下文可能膨胀到数万token——而这还只是一个普通任务的量级。上下文窗口的挑战你可能会说现在的模型上下文窗口不是已经达到百万token了吗窗口大不等于问题解决。虽然前沿模型的上下文窗口越来越大但随着上下文变长模型性能会明显下降。这不是因为容量不足而是因为噪声太多导致关键信息被淹没注意力被稀释。这就是Agent开发的核心矛盾上下文窗口有限但运行中产生的信息不断膨胀。有研究专门测试了这个现象叫needle in a haystack benchmark——在一大堆无关信息里找关键细节。结果发现随着token数量增加模型的召回准确率会持续下降。研究人员把这种现象称为上下文衰减context rot。大模型看起来很强大但它其实有个注意力预算——就像人的工作记忆一样能同时处理的信息量是有限的。每一个新token都在消耗这个预算。这说明啥不做上下文工程一个普通的多步骤任务就能把模型搞崩。哪怕窗口有一百万token也白搭上下文衰减是架构层面的硬伤不是扩大窗口就能解决的。02 它和prompt engineering到底有啥区别先搞清楚一个常见误区上下文工程不是提示词工程的替代品而是它的自然演进。这张图很清晰地说明了两者的关系提示词工程是上下文工程的一个子集。关注点的转变提示词工程Prompt Engineering关注的是如何措辞——怎么组织语言、怎么写指令、怎么用few-shot示例、怎么设计chain-of-thought。它的核心问题是“用什么词能让模型听懂”上下文工程Context Engineering关注的是给什么信息——系统指令、工具定义、MCP配置、外部数据、消息历史、动态加载策略……它的核心问题是“什么样的信息环境最能让模型产生期望的行为”上下文工程包含了一个以前被忽视的关键问题信息的选择和动态管理。工作模式的本质差异这两者的区别不只是范围大小的问题更是工作模式的根本不同维度提示词工程上下文工程性质离散任务持续迭代时机开发阶段一次性完成每次推理都要决策核心动作写更好的指令筛选和管理信息适用场景单次分类、文本生成多轮Agent交互提示词工程是写好一个prompt完事儿。上下文工程是每做一次推理都要决定往上下文里放什么。一个是静态的措辞优化一个是动态的信息策展curation。为什么这个区别很重要在早期的LLM应用开发中大多数用例都是一次性的情感分析、文本摘要、代码生成。这时候提示词工程确实够用了。但当你构建Agent时情况完全不同。Agent在循环中运行每一轮都会产生新的数据这些信息可能与下一轮推理相关。你需要不断决定哪些保留、哪些丢弃、哪些需要动态加载。这就像经营一家图书馆提示词工程关心的是怎么写借书规则措辞优化而上下文工程关心的是图书馆里放什么书、怎么分类、怎么根据读者需求动态推荐信息管理。Agent越复杂后者的权重就越高。03 到底什么是上下文工程定义管理大模型的工作记忆上下文工程简单说就是管理大模型工作记忆的系统方法。要理解这一点先要搞清楚大模型的信息来源。模型在推理时能用的信息只有两个参数知识训练阶段学到的推理时无法改变上下文窗口当前输入的内容这是我们唯一能控制的上下文工程本质上是在构建大模型的工作记忆——它决定了模型能看到什么、基于什么做决策。你可以把上下文想象成一块黑板黑板上写的是各种信息指令、数据、历史记录黑板空间有限上下文窗口限制写得太满重点就被淹没了注意力稀释所以上下文工程的核心问题不是怎么写这句话而是哪些信息值得放进去。核心原则最小高信噪比集合Anthropic给过一个精炼的定义上下文工程的目标是找到最小的高信噪比token集合以最大化达成期望结果的可能性。拆解一下最小不是越多越好而是够用就行高信噪比信息密度高噪声少token集合以token为单位衡量因为模型的注意力预算就是按token计算的一个具体例子假设你要让AI重构一个复杂代码库错误做法把几百个文件的代码片段全塞进去。结果模型被淹没在细节里抓不住重点。正确做法只放三个关键信息当前遇到的核心问题是什么重构的目标是什么有什么约束条件不能破坏的接口、依赖关系等模型反而能给出更清晰、更有针对性的方案。这就是上下文工程的基本哲学少即是多。04 到底怎么做四大核心技术理论说了一堆来看怎么落地。我结合Anthropic的文章和业界的做法总结了四大技术方向。一、基础层上下文组件设计在谈高级技术之前先确保基础组件设计合理。这张图展示了上下文的典型层次结构。从下到上信息从稳定到动态、从通用到具体。理解这个结构有助于我们更好地组织和管理上下文。系统提示System Prompt写系统提示就像调收音机要找到那个刚刚好的频点调太低过于具体硬编码一堆if-else逻辑提示词又臭又长。稍微变个场景就失效维护起来想死。调太高过于笼统说什么请专业地完成任务模型听完一脸懵——到底啥叫专业刚刚好给清楚目标和约束但别把每一步都规定死。让模型有发挥空间又能按你期望的方向走实践建议用XML标签或Markdown标题组织不同部分background、instructions、## Tool guidance等从最小提示开始测试根据失败模式逐步添加指令和示例最小不等于最短要提供足够的前置信息确保行为正确工具设计Tools工具是Agent与环境的契约设计原则功能聚焦每个工具职责清晰功能重叠最小化自包含像设计好的代码函数一样健壮、明确参数描述输入参数要描述性、无歧义发挥模型的固有优势常见陷阱工具集臃肿覆盖太多功能或导致选择困难。如果人类工程师都无法判断该用哪个工具AI也不行。示例选择Examples少样本示例few-shot仍然是强烈建议的最佳实践但要注意不要塞入一长串边缘情况试图覆盖所有规则要策划多样化、典型的示例有效展示预期行为对LLM来说示例就是价值千言的照片二、运行时层动态上下文检索核心思想不要预加载所有数据而是让Agent按需获取。JIT Context即时加载与其预先把所有相关数据塞进上下文不如让Agent维护轻量级标识符文件路径、存储的查询、网络链接等在运行时通过工具动态加载。案例Claude Code处理大型代码库时不预加载所有文件而是提供grep、glob、read等工具。模型需要哪个文件就现场搜索、现场读取。这还规避了索引过时的问题。渐进式披露Progressive Disclosure让Agent通过探索逐步发现相关上下文文件大小暗示复杂度命名约定暗示用途时间戳可以代表相关性Agent层层构建理解只在工作记忆中保留必要部分。混合策略最有效的Agent往往采用混合策略预检索一些数据保证速度如CLAUDE.md文件同时保留自主探索能力如glob、grep工具正确的自主程度取决于任务特性。三、长程任务层突破上下文窗口限制对于跨越数分钟到数小时的任务如大型代码库迁移、综合研究项目需要专门技术绕过上下文限制。压缩Compaction当对话接近上下文窗口限制时总结内容并用摘要重启新窗口。实现方式将消息历史传给模型让其总结最关键的细节保留架构决策、未解决的bug、实现细节丢弃冗余的工具输出、已处理的消息案例Claude Code自动压缩历史对话保留摘要最近访问的5个文件用户完全感知不到上下文已重启。调优建议先最大化召回率确保捕获所有相关信息再迭代提高精确率消除多余内容最安全的轻量级压缩清除历史深处的工具调用结果结构化笔记Structured Note-TakingAgent定期将笔记写入并持久化到上下文窗口之外需要时再拉回。案例Claude玩宝可梦时在数千步游戏中保持精确计数——走了多少步、宝可梦升了几级、解锁了哪些成就、战斗策略笔记。上下文重置后读取笔记就能继续数小时的训练序列。本质以最小开销提供持久记忆相当于给AI接了一个无限大的外存。子Agent架构Sub-agent Architectures主Agent协调高级计划子Agent用干净的上下文窗口处理专注任务。工作流程子Agent深入技术工作可能使用数万个token探索只返回压缩、精炼的摘要通常1000-2000 token详细搜索上下文保留在子Agent内部不污染主上下文案例Manus采用Planner Knowledge Manager Executor架构实现关注点分离。三种技术的选择压缩需要大量来回交互的任务保持对话流程笔记有明确里程碑的迭代开发子Agent复杂研究和分析并行探索能带来收益四、优化层成本控制与性能Prompt Caching提示缓存把稳定的系统指令和工具定义放在前缀位置启用缓存复用KV表示。效果Anthropic数据显示启用缓存后可降低90%的输入成本。做法稳定部分系统提示、工具定义放在最前面变化部分用户消息、历史记录追加在后面总结如何选择一般来说是综合使用你的场景优先采用长对话、多轮交互压缩Compaction跨会话、需要记忆结构化笔记大代码库/知识库JIT Context 子Agent复杂研究、多步骤分析子Agent架构成本敏感Prompt Caching工具调用频繁工具设计优化记住一个原则怎么简单怎么来管用就行。模型能力越来越强需要的花活会越来越少。但不管技术怎么变把上下文当成稀缺资源来看待这个核心思想不会过时。05 最后看下 Anthropic 的总结上下文工程代表着构建 LLM 应用的方式正在发生根本性转变。模型能力越强挑战越不是怎么写prompt而是怎么安排信息进模型的注意力预算。不管是压缩长任务上下文、设计省token的工具还是让Agent即时探索环境核心原则都一样找到最小的高信息密度集合最大化达成目标的概率。这些技术会随模型进化而演变。更聪明的模型需要更少的人工预设Agent能跑得更自主。但不管模型多强把上下文当稀缺资源对待始终是构建可靠Agent的核心。这里给大家精心整理了一份全面的AI大模型学习资源包括AI大模型全套学习路线图从入门到实战、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等资料免费分享扫码免费领取全部内容1. 成长路线图学习规划要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。这里我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。2. 大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。书籍含电子版PDF3. 大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。4. 2026行业报告行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5. 大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。6. 大模型面试题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。7. 资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询