2026/4/6 16:05:45
网站建设
项目流程
这篇工作指出虽然模仿学习为教授机器人灵巧技能提供了一种高效的方法,然而,要稳健且可泛化地学习复杂技能通常需要大量的人类演示。为了解决这一难题,DP3提出了一种新颖的视觉模仿学习方法——三维扩散策略(DP3)。该方法将三维视觉表征的优势融入扩散策略(一类条件动作生成模型)中。DP3 的核心设计在于利用从稀疏点云中提取的紧凑型三维视觉表征,该表征由高效的点编码器生成。在包含 72 个仿真任务的实验中,DP3 仅需 10 次演示即可成功完成大多数任务,并且相比基线方法提升了 24.2%。在 4 个真实机器人任务中,DP3 仅需 40 次演示即可实现 85% 的高成功率,并展现出卓越的泛化能力,涵盖空间、视角、外观和实例等多个方面。有趣的是,在实际机器人实验中,DP3 很少违反安全要求,这与经常违反安全要求、需要人工干预的基线方法形成鲜明对比。我们广泛的评估凸显了 3D 表征在真实世界机器人学习中的关键作用。项目地址:https://3d-diffusion-policy.github.io/代码地址(含数据集):https://github.com/YanjieZe/3D-Diffusion-Policy复现过程并不麻烦,麻烦的是我是5090的显卡,所以这里要用python3.10+cu128,不能用作者提出的3.8+cu121,架构不兼容。RTX 5090 需要 CUDA 12.8+ 且专门支持 Blackwell 的 PyTorch。因此针对5090可以参考:git clone https://github.com/YanjieZe/3D-Diffusion-Policy.git 563 conda create -n dp3 python=3.10 -y 564 cond