2026/4/6 15:11:39
网站建设
项目流程
标题A Subgoal-driven Framework for Improving Long-Horizon LLM Agents来源arXiv, 2603.19685v1摘要基于大语言模型LLM的代理已经成为数字环境的强大自主控制器跨越移动的界面、操作系统和Web浏览器。例如Web导航需要处理动态内容和长动作序列使其成为特别复杂的任务。现有的LLM支持的代理在两个方面表现出较弱的长期规划能力。在在线执行期间当新的信息到达时智能体经常会失去方向缺乏一个清晰的、自适应的路径来实现最终目标。这个问题在强化学习微调过程中进一步加剧稀疏和延迟的奖励使得智能体很难识别导致成功的动作从而阻止他们在扩展任务中维持连贯的推理。我们通过两个贡献来解决这个问题1通过子目标分解利用专有模型进行在线规划的代理框架;2MiraMilestoning your Reinforcement Learning Enhanced Agent一个使用密集的基于里程碑的奖励信号的强化学习训练框架。实时规划机制在WebArena-Lite基准测试中将Gemini等专有模型的绝对成功率SR提高了10%。同时在Gemma 3 - 12 B开放模型上应用MiRA成功率从6.4%提高到43.0%超过了GPT-4-Turbo等专利系统17.6%和GPT-4 o13.9%以及之前的开放式模型最新技术水平WebRL38.4%。我们的研究结果表明将明确的推理时间规划与基于里程碑的奖励相结合可以显著提高智能体的长期能力为更强大的通用自主系统铺平道路。️文章简介研究问题如何解决大语言模型智能体在长程网页导航任务中因规划能力不足和奖励稀疏导致的执行迷失与训练困难主要贡献论文提出了结合推理时动态子目标规划与基于里程碑的强化学习框架 MiRA显著提升了开源模型在复杂长程任务中的成功率。重点思路构建自动化失败分析器通过对比参考轨迹精准定位智能体陷入循环或偏离路径的关键决策步量化“中途卡死”为主要失败模式。利用强力教师模型将高层任务分解为可验证的结构化子目标序列并在推理阶段引入动态里程碑机制让智能体实时反思进度并修正规划。设计 MiRA 训练框架引入潜力评论家网络回归子目标完成度以生成稠密奖励信号解决长程任务中信用分配难题。采用基于均方误差的策略回归更新替代传统 KL 散度优化结合双重稳健优势估计实现稳定的离线策略迭代与课程学习。分析总结实验显示应用动态子目标规划使 Gemini 系列模型在 WebArena-Lite 基准上的成功率绝对值提升约 10%。MiRA 框架将开源 Gemma3-12B 模型的成功率从 6.4% 大幅提升至 43.0%超越 GPT-4o 及此前最优开源方法 WebRL。消融实验证实移除潜力评论家会导致性能回落至稀疏奖励水平证明稠密子目标信号对打破局部最优至关重要。失败分布分析表明新方法显著减少了“中途卡死”错误虽略微增加“错误终止”但证明智能体已具备完成长程序列的能力。个人观点论文将显式的符号化子目标推理与隐式的神经网络价值估计相结合没有依赖难以训练的过程奖励模型而是通过高质量的子目标生成提供可靠的“硬”监督信号既解决了推理时的规划漂移又填补了训练时的奖励空白为长程自主智能体提供了可扩展的解决方案。附录