突破350万字长文本限制(非常详细),MemAgent 核心原理从入门到精通,收藏这一篇就够了!
2026/4/6 5:15:45 网站建设 项目流程
今天分享一篇由字节跳动ByteDance Seed和清华大学智能产业研究院AIR联合发表的关于大模型长文本处理的文章Title:MemAgent: Reshaping Long-Context LLM with Multi-Conv RL-based Memory Agent。这篇文章致力于解决当前大语言模型在处理超长文本时面临的“性能急剧下降”和“计算复杂度爆炸二次复杂度”两大痛点。受人类阅读长文章时“做笔记、提炼核心并在脑海中更新记忆”的启发提出了一种名为MemAgent的智能体工作流。该方法将超长文本切分为多个片段Chunks利用一个固定长度的“记忆Memory”模块进行滚动更新并创新性地提出了Multi-Conv DAPO强化学习算法来实现端到端的训练。实验表明仅在 32K 长度数据和 8K 上下文窗口下训练的模型即可无损外推至3.5M350万词元长度且推理计算复杂度降为线性的 。一、概述•Title:MemAgent: Reshaping Long-Context LLM with Multi-Conv RL-based Memory Agent•URL:https://arxiv.org/abs/2507.02259v1•Authors:Hongli Yu, Tinghong Chen, Jiangtao Feng, Jiangjie Chen, Weinan Dai, Qiying Yu, Ya-Qin Zhang, Wei-Ying Ma, Jingjing Liu, Mingxuan Wang, Hao Zhou•Code/Project Page:https://memagent-sialab.github.io/1 Motivation•现有长文本方案的瓶颈目前处理长文本的主流方法如位置编码外推 RoPE、稀疏注意力、线性注意力或上下文压缩往往面临三大困境1外推到极长文本时性能严重衰减2自注意力机制的 计算复杂度导致推理极度缓慢且显存爆炸3需要从头训练或破坏了标准自回归生成的范式。•缺乏有效的端到端长上下文记忆训练机制现有的多轮Agent训练往往只是简单拼接历史对话无法灵活应对跨越多个独立上下文的记忆更新。如何教会模型“记住什么”和“遗忘什么”是一个亟待解决的强化学习难题。2 Methods切块阅读与记忆覆写 (MemAgent Workflow):放弃一次性输入全文而是将长文本切块。模型每次只读取“当前文本块”“上一轮的固定长度记忆”然后生成“更新后的记忆”。看完所有文本块后根据最终记忆回答问题。多轮对话强化学习 (Multi-conv RL):由于上述工作流会产生针对同一问题的一系列独立对话每一次记忆更新都是一次对话常规的RL算法无法直接应用。作者提出了基于DAPO扩展的Multi-Conv DAPO算法将最终回答获得的奖励Reward回传用于优化前面所有的记忆更新步骤。详细方法和步骤:1. 记忆智能体工作流 (The MemAgent Workflow):MemAgent 将任意长度的文档视为数据流。在每一步中模型只接收两个输入下一个文本块 (Chunk)和一个固定长度的记忆 (Memory)。阅读新文本块后模型使用“覆写策略 (Overwrite)”生成新的记忆来替换旧记忆。由于记忆长度固定处理每个文本块的计算量是 处理整个文档的端到端复杂度严格控制在 。文档处理完毕后进入“答案生成模块”模型仅根据最终记忆和原问题生成最终答案。2. 基于 Multi-conv RL 的模型训练:由于每次记忆更新本质上是让模型进行一次隐式的上下文压缩仅仅依靠监督学习很难教会模型“保留有用信息、丢弃干扰信息”。作者采用了强化学习RL。基于 GRPO 算法作者提出了Multi-Conv DAPO算法。由于 MemAgent 会为单个查询生成多个上下文独立的对话即多个记忆更新步骤算法将每次完整的文档处理轨迹视为一个组。通过Rule-Based Verifier对最终生成的答案进行打分如答案是否正确计算出 Outcome Reward然后将基于组归一化的优势函数Advantage均匀分配给该样本衍生出的所有中间记忆更新对话从而指导模型学习优质的记忆策略。3. 从自回归建模视角的重新思考:该方法本质上将标准 LLM 的联合概率分布分解为包含隐变量记忆 的多个读取和写入步骤。将 Transformer 转变为了一种状态大小由用户可控的循环神经网络RNN结构且记忆完全以自然语言 Token 的形式存在具备极强的可解释性。3 Conclusion•实现了近乎无损的无限长度外推经过 RL 训练的 MemAgent 仅需要 8K 的上下文窗口1024 token记忆 5000 token文本块在 32K 长度的文档上训练后能够完美外推到350万 (3.5M)token 的长文本 QA 任务中性能损失不到 5%。•突破了计算复杂度瓶颈相比于传统大模型的 复杂度MemAgent 实现了严格的 线性计算成本和内存消耗使得在有限算力下处理整本书籍或海量日志成为可能。•证明了RL在记忆机制中的决定性作用实验消融分析表明仅仅给模型提供记忆机制的Prompt是不够的不经过 RL 训练的模型在外推时依然会面临严重的性能崩溃。强化学习是让模型学会正确“提炼与遗忘”的关键。4 Limitation•推理延迟TTFT可能增加传统全量输入的长文本模型可以利用 GPU 的高度并行性一次性计算 Prefill 阶段而 MemAgent 将长文本切块后需要进行多次串行的自回归生成更新记忆这可能会增加“首字响应时间Time to First Token”。•错误累积风险采用“覆写”机制的硬压缩方式意味着如果在前面的某个文本块中模型错误地丢弃了关键信息在后续的处理中将无法找回不可逆失忆高度依赖模型对当前问题相关性的精确判断。5 Future Work• 探索动态文本块大小或并行的树状记忆合并机制以加速长文本处理速度。• 结合稠密检索Dense Retrieval机制允许模型在记忆中保存指针按需回溯原始文本降低误删关键信息的风险。• 将该 Multi-Conv RL 框架应用到包含外部工具调用、物理环境探索的更通用、多模态的 Agent 场景中。二、详细内容1 MemAgent 工作流图解总结文本被切分为多个 Chunk模型通过多轮迭代不断把新知识更新到有限的 Memory 中最后依靠 Memory 和 Question 输出 Answer 的过程。2 GRPO 与 Multi-conv DAPO 算法对比总结传统 GRPO 针对单一回复计算 Reward而 Multi-conv DAPO 面向“独立上下文组”利用最后一次对话包含的最终答案计算奖励和优势函数并反向传播优化之前所有的记忆更新生成步骤。3 MemAgent 的 Prompt 模板总结设计非常简洁要求模型阅读新块并结合旧记忆进行更新。体现了该方法不需要修改任何底层模型代码即插即用的优点。4 主实验结果数据表说明定量展示了从 7K 到 3.5M 长度下各个模型的准确率百分比。总结数据触目惊心。Qwen2.5-1M 等在 448K 之后得分直接归零而 RL-MemAgent-14B 在 3.5M 长度下依然坚挺在 78.12%确立了超长文本处理的新 SOTAState-of-the-Art。三、总结结论1: 彻底打破了大模型长文本处理的“不可能三角”。传统大模型往往在“无限长度”、“无损性能”和“线性推理成本”之间做取舍。MemAgent 通过引入定长潜变量记忆Latent Memory和文本流分块处理在不修改 Transformer 底层架构的前提下完美实现了 的计算复杂度并实现了极长文本下的性能无损外推。结论2: 创新性地解决了多步长程规划的RL信用分配问题。针对长文本分块处理中产生的多个“中间记忆状态”论文提出的Multi-Conv DAPO算法成功将“最终回答的正确与否”作为信号穿透并指导了所有的中间过程。这为如何训练具备长程规划与记忆更新能力的 Agent 提供了极具价值的范式。结论3: 极高的产业界应用价值与落地潜力。该方案的最大亮点在于其非侵入性。不需要设计复杂的 Sparse Attention 算子不需要改变大模型的基座架构甚至只需要 8K 的上下文窗口。这意味着利用现有显存较小的普通 GPU就可以部署该系统来处理现实中数以百万计 token 的财报分析、代码库阅读或全本小说理解。通过空间换时间多次自回归极大地降低了长文本处理的硬件门槛。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询