SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation

📄 arXiv: 2511.09555v1 📥 PDF

作者: Hao Shi, Bin Xie, Yingfei Liu, Yang Yue, Tiancai Wang, Haoqiang Fan, Xiangyu Zhang, Gao Huang

分类: cs.RO, cs.CV

发布日期: 2025-11-12

备注: AAAI 2026 Oral | Project Page: https://shihao1895.github.io/SpatialActor

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

SpatialActor:探索解耦空间表征,提升机器人操作的鲁棒性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 机器人操作 空间表征 解耦学习 鲁棒性 语义分割 几何信息 空间变换器

📋 核心要点

  1. 现有基于点云和图像的方法在机器人操作中存在不足,前者采样稀疏,后者易受深度噪声干扰,忽略了低层空间线索。
  2. SpatialActor通过解耦语义和几何信息,利用语义引导的几何模块融合噪声深度和专家先验,并使用空间变换器提取低层空间线索。
  3. 实验表明,SpatialActor在RLBench上达到SOTA,并在噪声环境下显著提升性能,同时增强了少样本泛化能力和抗空间扰动能力。

📝 摘要(中文)

机器人操作需要精确的空间理解才能与现实世界中的物体交互。基于点的方法存在稀疏采样问题,导致细粒度语义信息的丢失。基于图像的方法通常将RGB和深度信息输入到在3D辅助任务上预训练的2D骨干网络中,但它们纠缠的语义和几何信息对现实世界中固有的深度噪声非常敏感,这会扰乱语义理解。此外,这些方法侧重于高层几何信息,而忽略了对精确交互至关重要的低层空间线索。我们提出了SpatialActor,一个用于鲁棒机器人操作的解耦框架,它显式地解耦了语义和几何信息。语义引导的几何模块自适应地融合了来自噪声深度和语义引导的专家先验的两种互补几何信息。此外,空间变换器利用低层空间线索进行精确的2D-3D映射,并实现空间特征之间的交互。我们在50多个任务的多个模拟和真实世界场景中评估了SpatialActor。它在RLBench上实现了87.4%的最先进性能,并在不同的噪声条件下提高了13.9%到19.4%,显示出强大的鲁棒性。此外,它显著增强了对新任务的少样本泛化能力,并在各种空间扰动下保持了鲁棒性。

🔬 方法详解

问题定义:机器人操作任务需要精确的空间理解,而现有的基于点云的方法由于稀疏采样会丢失细粒度语义信息,基于图像的方法则容易受到深度噪声的影响,并且忽略了低层空间线索,导致鲁棒性不足。因此,如何从噪声数据中提取鲁棒的空间信息,并有效利用低层空间线索,是本论文要解决的关键问题。

核心思路:SpatialActor的核心思路是将语义信息和几何信息解耦,分别进行处理,然后通过语义引导的几何模块将两者融合。同时,利用空间变换器提取和利用低层空间线索,从而提高机器人操作的鲁棒性和精度。这种解耦和融合的设计能够更好地应对真实世界中的噪声和不确定性。

技术框架:SpatialActor的整体架构包含以下几个主要模块:1) 图像输入模块:接收RGB图像和深度图像作为输入。2) 语义分割模块:对RGB图像进行语义分割,提取语义信息。3) 语义引导的几何模块:融合来自噪声深度图像和语义引导的专家先验的几何信息。4) 空间变换器:利用低层空间线索进行精确的2D-3D映射,并实现空间特征之间的交互。5) 动作预测模块:基于融合后的空间特征,预测机器人的动作。

关键创新:SpatialActor的关键创新在于以下几点:1) 显式地解耦了语义信息和几何信息,避免了两者之间的相互干扰。2) 提出了语义引导的几何模块,能够自适应地融合来自噪声深度图像和语义引导的专家先验的几何信息,提高了几何信息的准确性。3) 引入了空间变换器,能够有效利用低层空间线索,提高了机器人操作的精度。与现有方法相比,SpatialActor更加关注低层空间信息的利用,并且能够更好地应对真实世界中的噪声和不确定性。

关键设计:在语义引导的几何模块中,使用了注意力机制来融合来自噪声深度图像和语义引导的专家先验的几何信息。空间变换器使用了可学习的变换参数,能够自适应地进行2D-3D映射。损失函数包括动作预测损失、语义分割损失和几何重建损失,用于训练整个网络。

📊 实验亮点

SpatialActor在RLBench上取得了87.4%的SOTA性能。在不同噪声条件下,SpatialActor的性能提升了13.9%到19.4%,展示了其强大的鲁棒性。此外,SpatialActor还显著增强了对新任务的少样本泛化能力,并在各种空间扰动下保持了鲁棒性。这些实验结果表明,SpatialActor在机器人操作领域具有显著的优势。

🎯 应用场景

SpatialActor在机器人操作领域具有广泛的应用前景,例如工业自动化、家庭服务机器人、医疗机器人等。它可以应用于各种需要精确空间理解和鲁棒性的任务,例如物体抓取、装配、导航等。该研究的成果有助于提高机器人在复杂环境中的适应性和可靠性,推动机器人技术的进一步发展。

📄 摘要(原文)

Robotic manipulation requires precise spatial understanding to interact with objects in the real world. Point-based methods suffer from sparse sampling, leading to the loss of fine-grained semantics. Image-based methods typically feed RGB and depth into 2D backbones pre-trained on 3D auxiliary tasks, but their entangled semantics and geometry are sensitive to inherent depth noise in real-world that disrupts semantic understanding. Moreover, these methods focus on high-level geometry while overlooking low-level spatial cues essential for precise interaction. We propose SpatialActor, a disentangled framework for robust robotic manipulation that explicitly decouples semantics and geometry. The Semantic-guided Geometric Module adaptively fuses two complementary geometry from noisy depth and semantic-guided expert priors. Also, a Spatial Transformer leverages low-level spatial cues for accurate 2D-3D mapping and enables interaction among spatial features. We evaluate SpatialActor on multiple simulation and real-world scenarios across 50+ tasks. It achieves state-of-the-art performance with 87.4% on RLBench and improves by 13.9% to 19.4% under varying noisy conditions, showing strong robustness. Moreover, it significantly enhances few-shot generalization to new tasks and maintains robustness under various spatial perturbations. Project Page: https://shihao1895.github.io/SpatialActor