2026/4/6 11:32:40
网站建设
项目流程
来源机器之心 本文约2000字建议阅读5分钟打开多机器人协助新路径。近年来Decision-Coupled World Model 与 Model-based RL 在机器人领域取得了显著成功。通过学习环境动力学模型智能体能够在内部模拟未来从而进行规划与决策。但当系统从单机器人扩展到多机器人时问题开始变得棘手。在多机器人系统中世界的变化不再由单独个体决定而是由多个个体共同作用。于是一个关键问题是如何让世界模型能够理解多机器人系统的联合动力学为了解决这一挑战中科院自动化所深度强化学习团队提出 SeqWM对多机器人联合动力学进行顺序式的因果条件化分解使机器人能够在意图共享的基础上进行协同规划。该成果已被 ICLR 2026 接收并在评审中获得 8 / 8 / 8 / 2 的评分。论文标题Empowering Multi-Robot Cooperation via Sequential World Models代码地址https://github.com/zhaozijie2022/seqwm为什么多机器人协作如此困难当多个机器人同时参与决策时系统的动力学会迅速变得复杂每个机器人的动作都会影响环境也会影响其他机器人接下来的决策。这使得多机器人协作成为强化学习和机器人领域长期以来的核心难题。核心原因在于世界不再由单一策略驱动而是由多个智能体共同决定。这带来了两个关键挑战因果结构复杂化多个机器人同时作用于环境导致动力学模型需要同时处理多个「因果源」学习难度显著增加。强行共享策略易产生梯度冲突。决策 - 世界闭环被打破在单机器人场景中动作 → 环境变化之间形成稳定闭环而在多机器人系统中每个机器人都受到其他机器人的影响预测误差会迅速累积。图 1多智能体世界建模困境在多个 robot 的作用下足球去向哪里SeqWM多机器人世界模型的顺序式因果分解现有方法通常把多机器人系统看作一个整体所有机器人的状态和动作会同时输入到一个统一模型中进而预测未来环境变化。然而随着机器人数量增加这种联合动力学建模的复杂度会迅速增长使得模型难以稳定学习和泛化也增大了部署的难度。SeqWM 从一个全新的视角重新思考了这个问题。研究团队提出一个关键观察多机器人世界的变化其实可以被建模为多个机器人依次作用于环境的过程。基于这一观察SeqWM 不再试图学习一个复杂的整体动力学函数而是将联合动力学分解为一系列顺序条件化的状态转移过程。每个机器人只需要学习在已知前序机器人动作的条件下自己对世界状态演化所产生的边际因果贡献。形式上原本的联合动力学被重写为顺序条件化的分解形式这种顺序式分解将复杂的多机器人动力学转化为一系列条件预测问题从而显著降低了建模难度。图 2R1 先规划并共享未来轨迹R2 据此调整路径实现对房间的协同探索在轨迹预测阶段每个机器人维护一个独立的世界模型每个模型只建模自身对环境的边际贡献后续机器人在预测时条件化前序机器人的预测结果这种结构使得复杂的联合动力学被拆解为多个简单且可扩展的局部预测过程。在动作规划阶段SeqWM 使用 MPPIModel Predictive Path Integral 进行动作规划。机器人按照顺序进行规划并共享预测轨迹。这意味着后续机器人在规划时可以提前知道前序机器人的未来计划。这种机制形成了一种显式的意图共享显著增强协作能力。图 3MPPI-based planner 示意图仿真实验对比研究团队在两个具有挑战性的多机器人环境中评估了 SeqWMBi-DexHands双灵巧手协作操作任务Multi-Quadruped多四足机器人协作任务实验结果表明SeqWM 在所有任务中均显著超过现有方法在性能与样本效率方面均取得领先。图4仿真实验可视化协作行为如何自然产生SeqWM 不仅提升了任务成功率还产生了多种自然协作行为。例如预测适应Predictive Adaptation机器人能够根据伙伴预测的未来动作提前调整动作。例如在接抛球任务中接球机器人会提前移动到预测落点附近从而稳定完成抓取。角色分工Role Division在推箱子任务中一只机器人负责 主要推进力另一只机器人负责 方向调整。这种分工并非人工设计而是在训练中自然产生。Sim-to-Real 真实机器人实验为了验证算法在真实环境中的效果研究团队还将 SeqWM 部署到了 Unitree Go2-W 机器人平台。实验包括推箱子、通过窄门、引导目标机器人实验结果表明真实机器人系统中的协作行为与仿真结果高度一致验证了 SeqWM 的实际应用潜力。总结SeqWM 提出了一种新的多机器人世界建模方式通过顺序因果结构分解多机器人动力学。这一设计使得复杂的多机器人协作问题变得更加可建模、可规划也为真实机器人系统提供了一种可扩展的解决方案。随着世界模型与强化学习技术的发展未来的机器人系统或许能够像人类团队一样通过共享意图与协同行动完成更加复杂的任务。赵子杰中国科学院自动化研究所博士生导师为赵冬斌研究员和朱圆恒副研究员。本科毕业于电子科技大学并获得荣誉学位Top 0.7%。主要研究方向为强化学习、世界模型和机器人学习重点关注融合学习、规划与控制的方法以实现鲁棒且可扩展的真实世界机器人智能。编辑文婧关于我们数据派THU作为数据科学类公众号背靠清华大学大数据研究中心分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博数据派THU微信视频号数据派THU今日头条数据派THU