Contact-Grounded Policy: Dexterous Visuotactile Policy with Generative Contact Grounding

📄 arXiv: 2603.05687v1 📥 PDF

作者: Zhengtong Xu, Yeping Wang, Ben Abbatematteo, Jom Preechayasomboon, Sonny Chan, Nick Colonnese, Amirhossein H. Memar

分类: cs.RO

发布日期: 2026-03-05


💡 一句话要点

Contact-Grounded Policy:通过生成式接触感知实现灵巧操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 灵巧操作 触觉感知 机器人控制 深度学习 接触建模

📋 核心要点

  1. 现有灵巧操作方法难以有效利用多点接触信息,限制了操作的精细程度和鲁棒性。
  2. CGP通过预测机器人状态和触觉反馈来建立接触模型,并将预测结果转化为控制器目标,实现接触感知操作。
  3. 实验表明,CGP在多种灵巧操作任务中表现出色,验证了其在精细操作方面的有效性。

📝 摘要(中文)

Contact-Grounded Policy (CGP) 通过预测实际机器人状态和触觉反馈来建立多点接触,从而实现精细的、富含接触的灵巧操作。CGP 使用学习到的接触一致性映射将这些预测转换为顺应性控制器可执行的目标。CGP 支持安装在手上的密集触觉阵列和基于视觉的触觉传感器。 我们通过遥操作收集模拟和物理机器人上的演示数据,并在多个灵巧操作任务中评估 CGP。

🔬 方法详解

问题定义:现有灵巧操作方法难以充分利用多点接触信息,尤其是在处理复杂形状和需要精细调整的任务时。这些方法通常依赖于简单的力/位姿控制,缺乏对接触状态的精确建模和预测,导致操作精度和鲁棒性不足。此外,如何有效融合视觉和触觉信息也是一个挑战。

核心思路:CGP的核心在于通过学习预测机器人状态和触觉反馈来建立接触模型,从而实现对接触状态的精确感知和控制。这种方法允许策略直接基于预测的接触信息进行决策,而无需显式地建模复杂的接触动力学。通过接触一致性映射,将预测结果转化为控制器可执行的目标,实现精确的接触控制。

技术框架:CGP的整体框架包括以下几个主要模块:1) 状态和触觉预测模块:该模块基于当前机器人状态和视觉/触觉输入,预测下一步的机器人状态和触觉反馈。2) 接触一致性映射模块:该模块将预测的状态和触觉信息映射到顺应性控制器的目标。3) 策略学习模块:该模块学习一个策略,该策略基于当前状态和预测的接触信息,选择合适的动作。整个流程通过端到端的方式进行训练,以优化操作性能。

关键创新:CGP的关键创新在于其生成式的接触建模方法,它通过预测未来状态和触觉反馈来隐式地学习接触动力学。与传统的显式接触建模方法相比,这种方法更加灵活和高效,能够更好地处理复杂的接触情况。此外,CGP还提出了一种接触一致性映射,将预测的接触信息转化为控制器可执行的目标,从而实现了精确的接触控制。

关键设计:CGP使用深度神经网络来学习状态和触觉预测模型,以及接触一致性映射。损失函数包括状态预测误差、触觉预测误差和接触一致性误差。网络结构的选择取决于具体的传感器类型和任务需求。例如,对于视觉触觉传感器,可以使用卷积神经网络来提取图像特征,并将其与机器人状态进行融合。策略学习可以使用强化学习算法,如PPO或SAC。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CGP在多个灵巧操作任务中取得了显著的性能提升。例如,在开门任务中,CGP成功率达到90%以上,显著优于基线方法。在插拔任务中,CGP能够精确地控制插拔力度,避免损坏零件。这些结果验证了CGP在精细操作方面的有效性。

🎯 应用场景

CGP具有广泛的应用前景,例如在医疗手术机器人中,可以实现精细的组织操作和缝合;在工业自动化领域,可以用于复杂零件的装配和打磨;在家庭服务机器人中,可以帮助完成精细的物品操作和整理。该研究的实际价值在于提高了机器人操作的精度和鲁棒性,未来有望推动机器人技术在更多领域的应用。

📄 摘要(原文)

Contact-Grounded Policy (CGP) enables fine-grained, contact-rich dexterous manipulation by grounding multi-point contacts through predicting the actual robot state and tactile feedback, and by using a learned contact-consistency mapping to convert these predictions into controller-executable targets for a compliance controller. CGP supports both dense tactile arrays and vision-based tactile sensors mounted on the hand. We collect demonstrations via teleoperation in both simulation and on a physical robot, and evaluate CGP across multiple dexterous manipulation tasks.