Residual Rotation Correction using Tactile Equivariance

📄 arXiv: 2511.07381v2 📥 PDF

作者: Yizhe Zhu, Zhang Ye, Boce Hu, Haibo Zhao, Yu Qi, Dian Wang, Robert Platt

分类: cs.RO

发布日期: 2025-11-10 (更新: 2025-11-11)

备注: 8 pages


💡 一句话要点

EquiTac:利用触觉等变性进行残差旋转校正,提升操作策略学习的样本效率。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 触觉学习 等变性 机器人操作 残差学习 视觉触觉融合

📋 核心要点

  1. 视觉触觉策略学习在接触丰富的操作中至关重要,但触觉数据采集成本高昂,样本效率成为关键挑战。
  2. EquiTac框架利用手部物体旋转的SO(2)对称性,通过学习残差旋转动作来校正视觉运动策略,提升样本效率。
  3. 实验表明,EquiTac仅需少量训练样本即可实现对未见过的手部方向的鲁棒零样本泛化,优于基线方法。

📝 摘要(中文)

本文提出EquiTac框架,利用手部物体旋转固有的SO(2)对称性,提高视觉触觉策略学习的样本效率和泛化能力,从而促进接触丰富的操作。EquiTac首先从基于视觉的触觉传感器的原始RGB输入中重建表面法线,法向量场的旋转对应于手部物体的旋转。然后,一个SO(2)等变网络预测一个残差旋转动作,该动作在测试时增强基础视觉运动策略,无需额外的重新定向演示即可实现实时旋转校正。在真实机器人上,EquiTac仅使用极少的训练样本即可准确地实现对未见过的手部方向的鲁棒零样本泛化,而基线方法即使使用更多训练数据也失败了。据我们所知,这是第一个显式编码触觉等变性以进行策略学习的触觉学习方法,产生了一个轻量级的、具有对称性感知能力的模块,提高了接触丰富任务的可靠性。

🔬 方法详解

问题定义:现有视觉触觉策略学习方法在接触丰富的操作任务中面临样本效率低下的问题。触觉数据采集成本高昂,导致训练策略需要大量的样本才能达到较好的性能,限制了其在实际机器人应用中的部署。此外,对于手部物体姿态的微小变化,现有策略的泛化能力较弱,需要额外的重新定向演示。

核心思路:本文的核心思路是利用手部物体旋转的SO(2)对称性,设计一个等变网络来预测残差旋转动作,从而校正基础视觉运动策略。通过显式地编码触觉等变性,网络能够更好地理解触觉输入与物体旋转之间的关系,从而提高样本效率和泛化能力。这种方法避免了直接学习复杂的视觉触觉策略,而是学习一个轻量级的校正模块。

技术框架:EquiTac框架主要包含以下几个阶段:1) 从视觉触觉传感器的RGB图像中重建表面法线;2) 使用SO(2)等变网络预测残差旋转动作;3) 将残差旋转动作与基础视觉运动策略相结合,实现旋转校正。整体流程是,首先利用视觉信息估计物体姿态,然后通过触觉信息进行姿态校正,最后执行校正后的动作。

关键创新:本文最重要的技术创新点是显式地编码触觉等变性到策略学习中。与以往的触觉学习方法不同,EquiTac利用SO(2)等变网络来学习触觉输入与物体旋转之间的关系,从而提高了样本效率和泛化能力。此外,EquiTac通过学习残差旋转动作,避免了直接学习复杂的视觉触觉策略,降低了学习难度。

关键设计:EquiTac的关键设计包括:1) 使用卷积神经网络从RGB图像中重建表面法线;2) 设计SO(2)等变网络,该网络能够保证输出的旋转动作与输入的触觉信息具有等变性;3) 使用残差学习框架,学习残差旋转动作,从而校正基础视觉运动策略。损失函数包括表面法线重建损失和残差旋转动作预测损失。网络结构采用模块化设计,易于扩展和修改。

📊 实验亮点

在真实机器人实验中,EquiTac仅使用极少的训练样本即可准确地实现对未见过的手部方向的鲁棒零样本泛化。实验结果表明,EquiTac在旋转校正任务中的性能明显优于基线方法,即使基线方法使用更多的训练数据也无法达到EquiTac的性能。这验证了EquiTac框架的有效性和优越性。

🎯 应用场景

EquiTac框架可应用于各种接触丰富的机器人操作任务,例如抓取、装配、操作工具等。该方法能够提高机器人在复杂环境中的操作可靠性和鲁棒性,降低对大量训练数据的需求,加速机器人技术的实际应用。未来,该方法可以扩展到其他对称性,例如平移对称性,从而进一步提高样本效率和泛化能力。

📄 摘要(原文)

Visuotactile policy learning augments vision-only policies with tactile input, facilitating contact-rich manipulation. However, the high cost of tactile data collection makes sample efficiency the key requirement for developing visuotactile policies. We present EquiTac, a framework that exploits the inherent SO(2) symmetry of in-hand object rotation to improve sample efficiency and generalization for visuotactile policy learning. EquiTac first reconstructs surface normals from raw RGB inputs of vision-based tactile sensors, so rotations of the normal vector field correspond to in-hand object rotations. An SO(2)-equivariant network then predicts a residual rotation action that augments a base visuomotor policy at test time, enabling real-time rotation correction without additional reorientation demonstrations. On a real robot, EquiTac accurately achieves robust zero-shot generalization to unseen in-hand orientations with very few training samples, where baselines fail even with more training data. To our knowledge, this is the first tactile learning method to explicitly encode tactile equivariance for policy learning, yielding a lightweight, symmetry-aware module that improves reliability in contact-rich tasks.