TacRefineNet: Tactile-Only Grasp Refinement Between Arbitrary In-Hand Object Poses

📄 arXiv: 2509.25746v1 📥 PDF

作者: Shuaijun Wang, Haoran Zhou, Diyun Xiang, Yangwei You

分类: cs.RO

发布日期: 2025-09-30

备注: 9 pages, 9 figures


💡 一句话要点

TacRefineNet:提出一种仅 tactile 的多指灵巧手末端位姿精确调整方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 触觉传感 灵巧抓取 位姿调整 机器人控制 深度学习

📋 核心要点

  1. 传统灵巧抓取和视觉-语言-动作方法在抓取执行阶段容易出现姿态不准确,影响长时任务性能。
  2. TacRefineNet 提出一种仅依赖触觉反馈的迭代调整方法,实现已知物体在任意目标姿态下的末端位姿精确调整。
  3. 通过模拟数据预训练和真实数据微调,显著提升性能,真实实验达到毫米级抓取精度。

📝 摘要(中文)

本文提出 TacRefineNet,一个仅使用触觉信息的框架,用于在任意目标姿态下精确调整已知物体的末端位姿。该方法通过多指指尖触觉传感,迭代地调整末端执行器的姿态,使物体与期望的配置对齐。设计了一个多分支策略网络,融合来自多个手指的触觉输入和本体感受信息,以预测精确的控制更新。为了训练该策略,结合了来自 MuJoCo 中基于物理的触觉模型的大规模模拟数据和从物理系统收集的真实世界数据。对比实验表明,在模拟数据上进行预训练,并使用少量真实数据进行微调,可以显著提高性能。广泛的真实世界实验验证了该方法的有效性,仅使用触觉输入即可实现毫米级的抓取精度。据我们所知,这是第一个仅通过多指触觉传感实现任意末端位姿调整的方法。

🔬 方法详解

问题定义:论文旨在解决灵巧抓取中,由于执行误差导致的物体位姿不准确问题,尤其是在长时任务中。现有方法,包括传统的灵巧抓取流程和视觉-语言-动作(VLA)方法,在抓取执行阶段仍然容易受到姿态误差的影响,从而降低整体性能。这些方法往往依赖视觉信息,但在遮挡、光照变化等情况下表现不佳,而触觉信息则能提供更鲁棒的反馈。

核心思路:论文的核心思路是利用多指触觉传感器提供的丰富触觉信息,设计一个策略网络,通过迭代调整末端执行器的姿态,使物体逐渐对齐到期望的目标姿态。这种方法完全依赖触觉反馈,无需视觉信息,因此更具鲁棒性。通过模拟数据预训练和真实数据微调,可以有效地利用模拟数据的规模优势和真实数据的真实性。

技术框架:TacRefineNet 的整体框架包括以下几个主要模块:1) 触觉数据采集模块:使用多指触觉传感器获取指尖的触觉信息。2) 本体感受数据采集模块:获取机械手的关节角度等本体感受信息。3) 多分支策略网络:融合触觉和本体感受信息,预测末端执行器的姿态调整量。4) 控制执行模块:根据策略网络的输出,控制机械手调整姿态。5) 迭代优化模块:重复执行上述步骤,直到物体位姿达到期望精度。

关键创新:该论文最重要的技术创新点在于提出了一种完全依赖触觉信息的末端位姿调整方法。与现有方法相比,该方法无需视觉信息,因此更具鲁棒性,尤其是在遮挡、光照变化等情况下。此外,该论文还设计了一个多分支策略网络,能够有效地融合来自多个手指的触觉信息和本体感受信息,从而实现更精确的姿态调整。

关键设计:多分支策略网络是关键设计之一,每个分支处理来自一个手指的触觉信息,然后将所有分支的输出融合,并结合本体感受信息,最终预测末端执行器的姿态调整量。损失函数的设计也至关重要,论文可能采用了均方误差损失函数或类似的回归损失函数,以最小化预测的姿态调整量与真实姿态调整量之间的差异。此外,模拟数据的生成和真实数据的采集也是关键环节,需要保证数据的质量和多样性。

📊 实验亮点

实验结果表明,TacRefineNet 在真实世界中实现了毫米级的抓取精度,验证了该方法的有效性。通过在模拟数据上进行预训练,并使用少量真实数据进行微调,可以显著提高性能。与仅使用模拟数据训练的模型相比,使用真实数据微调的模型在真实世界中的表现更好。这些结果表明,TacRefineNet 是一种很有前景的末端位姿调整方法。

🎯 应用场景

该研究成果可应用于自动化装配、精密操作、医疗机器人等领域。在这些场景中,物体位姿的精确调整至关重要。例如,在自动化装配中,机器人需要精确地将零件插入到指定位置;在医疗机器人中,医生需要精确地控制手术器械进行微创手术。该方法无需视觉信息,因此在光照条件差或存在遮挡的情况下也能正常工作,具有很高的应用价值。未来,该方法可以进一步扩展到更复杂的物体和更复杂的任务中。

📄 摘要(原文)

Despite progress in both traditional dexterous grasping pipelines and recent Vision-Language-Action (VLA) approaches, the grasp execution stage remains prone to pose inaccuracies, especially in long-horizon tasks, which undermines overall performance. To address this "last-mile" challenge, we propose TacRefineNet, a tactile-only framework that achieves fine in-hand pose refinement of known objects in arbitrary target poses using multi-finger fingertip sensing. Our method iteratively adjusts the end-effector pose based on tactile feedback, aligning the object to the desired configuration. We design a multi-branch policy network that fuses tactile inputs from multiple fingers along with proprioception to predict precise control updates. To train this policy, we combine large-scale simulated data from a physics-based tactile model in MuJoCo with real-world data collected from a physical system. Comparative experiments show that pretraining on simulated data and fine-tuning with a small amount of real data significantly improves performance over simulation-only training. Extensive real-world experiments validate the effectiveness of the method, achieving millimeter-level grasp accuracy using only tactile input. To our knowledge, this is the first method to enable arbitrary in-hand pose refinement via multi-finger tactile sensing alone. Project website is available at https://sites.google.com/view/tacrefinenet