2026/4/6 16:15:49
网站建设
项目流程
论文信息英文题目Surgical embodied intelligence for generalized task autonomy in laparoscopic robot-assisted surgery中文题目 用于腹腔镜机器人辅助手术中通用任务自主性的手术具身智能作者Yonghao Long, Anran Lin, Derek Hang Chun Kwok, Lin Zhang, Zhenya Yang, Kejian Shi, Lei Song, Jiawei Fu, Hongbin Lin, Wang Wei, Kai Chen, Xiangyu Chu, Yang Hu, Hon Chi Yip, Philip Wai Yan Chiu, Peter Kazanzides, Russell H. Taylor, Yunhui Liu, Zihan Chen, Zerui Wang, Samuel Kwok Wai Au, Qi Dou通讯作者单位 香港中文大学、约翰霍普金斯大学、康奈尔大学、Cornerstone Robotics期刊Science RoboticsIF 27.5 中科院一区JCR一区发表时间2025年7月16日链接https://www.science.org/doi/10.1126/scirobotics.adt3093引文格式Long Y, Lin A, Kwok D H C, et al. Surgical embodied intelligence for generalized task autonomy in laparoscopic robot-assisted surgery[J]. Science Robotics, 2025, 10: eadt3093.01 全文速览手术机器人已经完成了数百万例微创手术但目前的机器人本质上还是医生的“遥控工具”。让机器人自主完成手术操作是下一个技术高地——但要实现这一点面临一个根本难题手术场景太复杂传统编程方法无法穷举所有情况。香港中文大学领衔的团队给出了一套完整的解决方案他们把它叫做手术具身智能。核心思路是在模拟环境中训练AI然后把学到的技能直接部署到真实机器人上不需要任何微调——这就是“零样本模拟到现实迁移”。他们开源了一个专门的手术机器人学习模拟器SurRoL并在此基础上开发了名为VPPV的四层学习框架视觉解析Visual parsing用视觉基础模型理解手术场景感知回归器Perceptual regressor把图像信息映射成物理状态策略学习Policy learning用强化学习规划轨迹视觉伺服Visual servoing用传统控制器完成最后一步精细操作。实验结果很有说服力在达芬奇研究套件上完成了7个基础技能训练任务在商业化手术机器人上完成了5个手术辅助任务镜头操控、持针、取纱布、组织牵拉、血管夹闭全部实现零样本迁移。更关键的是在活体猪的体内实验中这些算法能在呼吸运动、组织变形、血污干扰等真实条件下稳定工作。核心亮点✅零样本迁移模拟器训练的策略直接部署到真实机器人无需微调✅统一框架VPPV框架适用于7种技能训练和5种手术辅助任务无需针对任务重新设计✅视觉基础模型用SAM和深度估计网络实现场景理解对光照、烟雾、血污鲁棒✅软体仿真基于物质点法实现实时软组织变形模拟支持组织牵拉任务训练✅实体验证达芬奇研究套件、商业化手术系统、离体组织、活体猪四个层面验证02 研究内容问题手术机器人为什么难自主手术机器人要自主完成操作面临两个核心挑战一是场景太复杂器械种类多、组织变形、血污遮挡传统方法无法穷举所有情况二是模拟到现实的鸿沟——模拟器里的图像和真实内窥镜图像差异太大训练好的模型到真实环境中往往失效。解决方案VPPV四层架构Figure 1概念总览图。通过具体智能训练的基于视觉的学习范式可以实现手术机器人的通用任务自动化。图1展示了整个VPPV框架。他们把这四个模块串联起来视觉解析 → 感知回归 → 策略学习 → 视觉伺服。第一层视觉解析Visual parsing这一步的目标是把内窥镜图像转换成机器人能理解的信息。他们用了两个视觉基础模型FastSAM图像分割用点提示的方式让模型找到目标物体针、纱布、血管等IGeV立体深度估计从双目图像中算出物体在3D空间中的位置这两个模型都是预训练好的对光照变化、烟雾、血污有较好的鲁棒性。第二层感知回归器Perceptual regressor这是实现零样本迁移的关键。传统方法直接把图像像素输入神经网络但模拟器和真实图像有差异模型学到的特征会失效。他们换了个思路不直接学图像而是学“图像分割图深度图”到“物理状态”的映射。他们把分割图和深度图输入一个ResNet-18输出一个9维的状态向量包含目标物体的3D位置、3D姿态、器械末端到目标的相对位置。这个回归器在模拟器中用12000对合成数据训练模拟时加入了随机噪声深度图加0-3mm的高斯噪声分割图有30%概率随机丢失像素保证模型对感知误差的鲁棒性。第三层策略学习Policy learning基于回归器输出的状态用深度确定性策略梯度DDPG训练策略网络。奖励函数是稀疏的成功给0分失败给-1分。这样可以鼓励机器人关注任务目标而不是那些不重要的中间步骤。训练时状态包含PSM机械臂的位姿、回归的环境状态、内窥镜图像中的3D目标点。第四层视觉伺服Visual servoing策略网络负责把器械送到目标附近最后一步精细操作交给传统的视觉伺服控制器。这样做的好处是最后一步的精度要求高传统控制器比学习型方法更可靠。控制律很简单把目标点从相机坐标系转换到PSM基坐标系计算末端当前点到目标点的误差驱动机械臂运动。软体仿真让机器人学会“手感”Figure 2软组织仿真和数据驱动场景重建图。 (A) 随着粒子数量的增加MPM 软体模拟的计算时间。(B) 具有不同杨氏模量的模拟软组织的变形场。 (C) 通过将 3D 重建结果导入 SurRoL 进行数据驱动的手术场景模拟。(D) 对 PSNR、SSIM 和 LPIPS 指标的重建结果进行定量评估报告为平均值±SD。 (E) 可以从数据生成的各种场景的可视化。 (F) 生成的场景支持工具与组织的相互作用并通过 SurRoL 中的 MPM 计算变形。图2展示了软体仿真的技术细节。他们用物质点法MPM模拟软组织变形——把组织离散成粒子每个粒子有位置、速度、密度、杨氏模量、泊松比等属性。工具与组织接触时从接触点开始传播变形场。图2B显示了不同杨氏模量1、5、10 kPa下的变形差异刚度越小变形越大。为了提升场景真实感他们用3D高斯泼溅3DGS从真实手术视频中重建场景生成的虚拟场景可以导入SurRoL支持工具与组织的交互仿真图2F。实验验证四层递进Figure 3模拟器中不同策略学习方法的基准测试以及与我们在现实世界机器人上的方法的比较。 CoL学习周期 AWAC优势加权演员评论家 IQL隐式Q学习 BeT行为转换器 DEX示范引导探索 RLPD利用先验数据进行强化学习 RLIF通过干预反馈强化学习 GCDT目标条件决策变压器。图3的表格对比了十几种RL/IL方法。他们的VPPV方法在模拟器中的成功率高得离谱NeedleReach、NeedlePick、GauzeRetrieve三个简单任务都是100%PickAndPlace 90%PegTransfer 98%MatchBoard 83%NeedleRegrasp 96%。更关键的是把这些策略直接部署到达芬奇研究套件上成功率只下降了8%左右——这就是零样本迁移的效果。作为对比ALOHA和Diffusion Policy在模拟器里能学一到真实世界就失效。Figure 4SurRoL 人机界面的图示和结果及其在触觉辅助技能教育中的应用。 (A) 模拟器连接到 dVRK 的 MTM。 (B) 我们提出的触觉辅助手术技能训练方法该方法使用强化学习预测轨迹通过人机共享控制提供智能指导。 (C) (i) 仪器运动轨迹的可视化钉转移任务其中在检测到相对较大的偏差时激活触觉辅助。 (ii) 轨迹偏差和力大小随时间的可视化。 (D) 通过测量训练后任务完成时间来提高学习效率的用户研究。图4展示了SurRoL的人机交互功能。他们用达芬奇的主手MTM直接控制模拟器中的虚拟机械臂实现了双向力觉反馈。基于这个功能他们做了一个力觉辅助训练的实验RL预测的轨迹作为“正确路径”新手偏离路径时主手会施加一个力把他们“拉”回来。图3D显示经过15分钟训练有力觉辅助的新手完成任务只需10.5秒而自学的要20.2秒——提升了近一倍。Figure 5使用 Sentire 手术系统对五种手术辅助任务进行离体验证。 (A) 使用离体猪组织的实验装置的图示。(B) 五次进行的手术辅助任务的成功率。 (C) 从运动学数据记录的每个任务的机器人执行轨迹长度的结果。图5是离体实验的统计结果。他们用商业化手术系统Sentire在猪胃组织上测试了五个任务镜头操控成功率95%自动调整内窥镜位姿把器械保持在视野中央持针83%自主抓取放在组织表面的针针的大小从15mm到35mm取纱布91%自主抓取纱布并放到出血点组织牵拉91%自主抓取并牵拉组织为其他器械创造操作空间血管夹闭87%自主把夹子放到血管上Figure 6离体实验中五项任务的真实世界场景的不同设置。 (A) 内窥镜摄像机的操作。 (B) 抓针。 (C) 纱布挑选。(D) 软组织收缩。 (E) 血管夹闭。图6展示了每种任务在真实环境中的挑战不同器械类型、不同物体大小、不同照明、烟雾、血污。VPPV都能应对。Figure 7在自主监督下通过活体动物试验进行体内验证。 (A) 香港多尺度医疗机器人中心混合手术室的体内实验装置。 (B) 自动化手术任务的图示包括纱布拾取、软组织牵开和血管夹闭。每个任务显示两个示例场景其中包含内窥镜图像上、估计深度图左下和目标对象分割右下。图7是最终的活体猪实验。在麻醉的猪体内他们测试了取纱布、组织牵拉、血管夹闭三个任务。成功率分别是83%、77%、67%。失败的主要原因是呼吸运动导致目标漂移、软组织变形导致抓取困难、血管太细对精度要求极高。但即使有这些挑战算法仍然能完成大部分操作。03 创新点①零样本模拟到现实迁移这是整篇论文最核心的贡献。他们没有像大多数研究那样在真实机器人上微调而是通过设计可解释的中间表示分割图深度图→物理状态来消除模拟与现实的视觉差异。只要视觉解析模块能在真实图像中稳定工作后面的策略就能直接用。②四层解耦架构VPPV把“感知→规划→执行”拆成了四层每层各司其职。视觉解析用基础模型不依赖特定任务感知回归器负责把图像变成物理状态策略学习负责高层路径规划视觉伺服负责低层精细控制。这种解耦的好处是每一层都可以独立升级比如未来可以用更好的基础模型替换视觉解析模块。③开源的完整基础设施他们开源了SurRoL模拟器https://github.com/med-air/SurRoL包含了达芬奇机器人的数字孪生、软体仿真引擎、强化学习库还有7个基础技能训练任务和5个手术辅助任务的资产。这对整个手术机器人社区非常有价值——研究者不需要从头搭建模拟环境可以直接在这个平台上开发新算法。④软体仿真的效率突破用物质点法MPM模拟软组织变形在单个GPU上能跑100帧以内粒子数从1万到10万计算时间小于100毫秒。这个速度对强化学习训练来说是可以接受的。他们还用3D高斯泼溅从真实手术视频重建场景解决了手工建模不够真实的问题。⑤全链条验证从模拟器到达芬奇研究套件从离体组织到活体猪验证链条完整。特别是活体猪实验呼吸运动、软组织变形、血污遮挡这些都是模拟器很难复现的算法仍然能完成大部分操作说明设计是鲁棒的。04 总结与展望这篇论文的意义在于它证明了手术机器人可以通过模拟训练学会多种操作并且这些技能可以直接用到真实环境中。VPPV框架的核心思想——用可解释的中间表示连接视觉和决策——可能是解决“模拟到现实”问题的一个通用方案。从工程角度看他们的设计思路很务实不试图用端到端网络解决所有问题而是把任务拆解成视觉、规划、执行三个层次分别用最适合的方法处理。视觉用基础模型规划用强化学习执行用传统控制。这种“取其精华”的思路值得在其他机器人任务中借鉴。未来研究将聚焦于以下几个方向更长序列任务目前的任务都是一到两步操作要真正实现手术自动化需要让机器人学会多步骤任务的编排和执行。这可能需要用大语言模型或分层强化学习来实现技能的组合。更安全的强化学习在真实手术中强化学习的探索过程可能带来风险。需要研究安全的探索策略如人机共享控制或在模拟中完成所有探索。更快的推理速度目前深度估计要300毫秒一帧策略预测7毫秒总帧率约3帧/秒。要提高响应速度可能需要轻量化模型或硬件加速。更精确的感知血管夹闭任务中血管直径约5mm夹子10mm深度估计的误差可能导致夹偏。需要更高精度的3D重建方法。更智能的人机交互目前是“监督自主”模式——人启动任务AI执行。未来可以发展更紧密的人机协作比如AI预测医生的意图、提前准备工具、或根据医生的动作调整自己的策略。扩展到其他手术机器人平台目前验证了达芬奇和Sentire两个平台理论上VPPV是平台无关的。需要更多平台上的验证来证明通用性。你认为手术机器人应该追求完全的“自主”还是“协同”在安全性和效率之间如何权衡欢迎在评论区分享你的观点。声明本文仅供学术交流版权归原作者所有。如有错误或侵权请联系更正或删除欢迎留言探讨。往期推荐Science | 0.2克机器人如何急转弯从溪蟉liú的“毛细扇子”到仿生快艇Science Robotics | 16克深海变形机器人在马里亚纳海沟1万米深处畅游爬行Science Advances | 像爬山虎一样攀爬的软体机器人能生长、可弯曲、任务完成后还能“缩”回来Science Robotics | 0.2毫米的机器人能感知、会计算、可编程还不用外接大脑