Learning Surgical Robotic Manipulation with 3D Spatial Priors
作者: Yu Sheng, Lidian Wang, Xiaomeng Chu, Jiajun Deng, Min Cheng, Yanyong Zhang, Bei Hua, Houqiang Li, Jianmin Ji
分类: cs.RO
发布日期: 2026-03-04
备注: CVPR26
💡 一句话要点
提出Spatial Surgical Transformer,通过3D空间先验提升手术机器人操作能力
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 手术机器人 三维空间感知 视觉运动控制 Transformer 立体视觉
📋 核心要点
- 现有手术机器人操作方法依赖场景重建或腕部相机,前者易累积误差,后者干扰机器人运动。
- SST通过探索内窥镜图像中的3D空间线索,实现端到端的视觉运动策略,赋予机器人3D空间感知能力。
- SST在真实机器人实验中,于打结和离体器官解剖等复杂任务上,展现了优异的性能和空间泛化能力。
📝 摘要(中文)
三维空间感知对于需要精确和精细操作的手术机器人至关重要。现有方法要么在操作前显式地重建手术场景,要么通过增加腕部相机来增强多视角特征,以补充默认的立体内窥镜。然而,这两种范式都存在明显的局限性:前者容易导致误差累积,并因其多阶段性质而阻止端到端优化;而后者在临床实践中很少采用,因为腕部相机可能会干扰手术机器人手臂的运动。本文提出了Spatial Surgical Transformer (SST),一种端到端视觉运动策略,通过直接探索内窥镜图像中嵌入的三维空间线索,使手术机器人具备三维空间感知能力。首先,我们构建了Surgical3D,一个包含3万个立体内窥镜图像对和精确三维几何信息的大规模逼真数据集,解决了手术场景中三维数据稀缺的问题。基于Surgical3D,我们微调了一个强大的几何Transformer,以从立体内窥镜图像中提取鲁棒的三维潜在表示。然后,通过一个轻量级的多级空间特征连接器(MSFC),将这些表示无缝地与机器人的动作空间对齐,所有操作都在以内窥镜为中心的坐标系中进行。大量的真实机器人实验表明,SST在复杂的诸如打结和离体器官解剖等手术任务上实现了最先进的性能和强大的空间泛化能力,代表着向实际临床部署迈出的重要一步。数据集和代码将会开源。
🔬 方法详解
问题定义:现有手术机器人操作方法主要依赖于术前场景重建或增加腕部相机。术前场景重建容易产生误差累积,且无法进行端到端优化。腕部相机虽然可以提供更丰富的视角信息,但在实际临床应用中会干扰手术机器人的运动,限制了其应用范围。因此,如何使手术机器人能够在不依赖额外硬件设备和复杂预处理的情况下,直接从内窥镜图像中感知三维空间信息,是本文要解决的关键问题。
核心思路:本文的核心思路是利用Transformer强大的特征提取能力,直接从立体内窥镜图像中学习三维空间表示,并将其与机器人的动作空间对齐,从而实现端到端的视觉运动控制。通过构建大规模的合成数据集Surgical3D,并预训练一个几何Transformer,可以有效地提取图像中的三维几何信息。然后,通过多级空间特征连接器(MSFC),将提取的三维特征与机器人的动作空间进行映射,使得机器人能够根据内窥镜图像直接执行手术操作。
技术框架:SST的整体框架包括以下几个主要模块:1) Surgical3D数据集:用于预训练几何Transformer的大规模合成数据集。2) 几何Transformer:用于从立体内窥镜图像中提取三维潜在表示。3) 多级空间特征连接器(MSFC):用于将三维特征与机器人的动作空间对齐。整个流程是端到端的,即从内窥镜图像输入到机器人动作输出,无需中间的人工干预或复杂的预处理。
关键创新:SST的关键创新在于以下几个方面:1) 端到端的视觉运动策略:SST直接从内窥镜图像学习机器人动作,避免了传统方法中的误差累积和多阶段优化问题。2) 基于Transformer的三维空间感知:SST利用Transformer强大的特征提取能力,从立体内窥镜图像中提取鲁棒的三维潜在表示。3) 多级空间特征连接器(MSFC):MSFC能够有效地将三维特征与机器人的动作空间对齐,实现精确的机器人控制。
关键设计:Surgical3D数据集包含3万个立体内窥镜图像对,并提供了精确的三维几何信息。几何Transformer采用预训练的ResNet作为骨干网络,并在此基础上进行微调。MSFC采用多层感知机(MLP)结构,将三维特征映射到机器人的动作空间。损失函数包括动作预测损失和几何重建损失,用于优化整个网络。
🖼️ 关键图片
📊 实验亮点
SST在真实机器人实验中取得了显著的性能提升。在打结任务中,SST的成功率达到了state-of-the-art水平,并且在离体器官解剖任务中也展现了强大的空间泛化能力。与传统的基于视觉伺服的方法相比,SST能够更好地处理复杂的手术场景,并实现更精确的机器人控制。
🎯 应用场景
该研究成果可应用于多种微创手术场景,例如腹腔镜手术、胸腔镜手术等。通过提升手术机器人的空间感知能力,可以提高手术的精确性和安全性,减少手术创伤,缩短患者的康复时间。未来,该技术有望与增强现实、虚拟现实等技术相结合,为医生提供更直观、更便捷的手术辅助工具。
📄 摘要(原文)
Achieving 3D spatial awareness is crucial for surgical robotic manipulation, where precise and delicate operations are required. Existing methods either explicitly reconstruct the surgical scene prior to manipulation, or enhance multi-view features by adding wrist-mounted cameras to supplement the default stereo endoscopes. However, both paradigms suffer from notable limitations: the former easily leads to error accumulation and prevents end-to-end optimization due to its multi-stage nature, while the latter is rarely adopted in clinical practice since wrist-mounted cameras can interfere with the motion of surgical robot arms. In this work, we introduce the Spatial Surgical Transformer (SST), an end-to-end visuomotor policy that empowers surgical robots with 3D spatial awareness by directly exploring 3D spatial cues embedded in endoscopic images. First, we build Surgical3D, a large-scale photorealistic dataset containing 30K stereo endoscopic image pairs with accurate 3D geometry, addressing the scarcity of 3D data in surgical scenes. Based on Surgical3D, we finetune a powerful geometric transformer to extract robust 3D latent representations from stereo endoscopes images. These representations are then seamlessly aligned with the robot's action space via a lightweight multi-level spatial feature connector (MSFC), all within an endoscope-centric coordinate frame. Extensive real-robot experiments demonstrate that SST achieves state-of-the-art performance and strong spatial generalization on complex surgical tasks such as knot tying and ex-vivo organ dissection, representing a significant step toward practical clinical deployment. The dataset and code will be released.