Neural feels with neural fields: Visuo-tactile perception for in-hand manipulation
作者: Sudharshan Suresh, Haozhi Qi, Tingfan Wu, Taosha Fan, Luis Pineda, Mike Lambeta, Jitendra Malik, Mrinal Kalakrishnan, Roberto Calandra, Michael Kaess, Joseph Ortiz, Mustafa Mukadam
分类: cs.RO, cs.CV, cs.LG
发布日期: 2023-12-20
备注: 43 pages, 20 figures, 1 table; https://suddhu.github.io/neural-feels/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
NeuralFeels:结合视觉触觉的神经场方法,用于灵巧手内操作中的物体姿态和形状估计
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人灵巧操作 手内操作 多模态感知 神经场 姿态图优化
📋 核心要点
- 现有手内操作感知方法依赖视觉,易受遮挡影响,且难以处理未知物体,限制了机器人灵巧性。
- NeuralFeels 结合视觉和触觉信息,通过在线学习神经场来表示物体几何,并使用姿态图优化进行联合跟踪。
- 实验表明,该方法在真实场景中能有效估计物体姿态和形状,尤其在视觉遮挡严重时,性能显著优于纯视觉方法。
📝 摘要(中文)
为了实现人类水平的灵巧性,机器人必须从多模态传感中推断空间感知,从而推理接触交互。在手内操作新物体期间,这种空间感知涉及估计物体的姿态和形状。目前手内感知的现状主要采用视觉,并限制于跟踪先验已知的物体。此外,手内物体视觉遮挡是不可避免的,这阻碍了当前系统超越无遮挡任务。我们结合多指手的视觉和触觉传感,以估计手内操作期间物体的姿态和形状。我们的方法 NeuralFeels 通过在线学习神经场来编码物体几何形状,并通过优化姿态图问题来联合跟踪它。我们在模拟和真实世界中研究多模态手内感知,通过本体感受驱动的策略与不同的物体进行交互。我们的实验表明,最终重建的 F-score 为 81%,平均姿态漂移为 4.7 毫米,如果使用已知的 CAD 模型,则进一步降低到 2.3 毫米。此外,我们观察到,在严重的视觉遮挡下,与仅使用视觉的方法相比,我们的跟踪性能可以提高高达 94%。我们的结果表明,触觉至少可以改进视觉估计,在最好的情况下,可以消除手内操作期间的视觉估计歧义。我们发布了包含 70 个实验的评估数据集 FeelSight,作为迈向该领域基准测试的一步。我们由多模态传感驱动的神经表示可以作为感知骨干,以促进机器人灵巧性。
🔬 方法详解
问题定义:论文旨在解决手内操作中,由于视觉遮挡和物体未知性导致的物体姿态和形状估计问题。现有方法主要依赖视觉,对遮挡敏感,且通常需要预先知道物体的 CAD 模型,限制了其在复杂环境中的应用。
核心思路:论文的核心思路是融合视觉和触觉信息,利用神经场来表示物体的几何形状,并采用姿态图优化方法进行联合跟踪。触觉信息可以弥补视觉遮挡带来的信息缺失,神经场可以灵活地表示任意形状的物体,姿态图优化则可以保证估计结果的一致性。
技术框架:NeuralFeels 的整体框架包含以下几个主要模块:1) 多模态数据采集:利用视觉和触觉传感器获取物体的信息。2) 神经场学习:在线学习一个神经场来表示物体的几何形状。3) 姿态图构建:根据视觉和触觉信息构建姿态图,其中节点表示物体的姿态,边表示姿态之间的约束关系。4) 姿态图优化:通过优化姿态图来估计物体的姿态和形状。
关键创新:该方法最重要的技术创新点在于将神经场和姿态图优化相结合,实现多模态手内操作的物体姿态和形状估计。与现有方法相比,该方法不需要预先知道物体的 CAD 模型,并且能够有效地处理视觉遮挡。
关键设计:在神经场学习方面,论文采用 MLP 网络来表示 signed distance function (SDF)。在姿态图优化方面,论文使用视觉重投影误差和触觉距离误差作为约束条件。损失函数包括视觉损失、触觉损失和正则化项。网络结构和参数设置的具体细节在论文中有详细描述。
📊 实验亮点
实验结果表明,NeuralFeels 在真实场景中取得了良好的效果,重建 F-score 达到 81%,平均姿态漂移为 4.7 毫米,使用已知 CAD 模型后可降至 2.3 毫米。在视觉遮挡严重的情况下,与纯视觉方法相比,跟踪性能提升高达 94%。FeelSight 数据集的发布也为该领域的研究提供了宝贵的资源。
🎯 应用场景
该研究成果可应用于机器人灵巧操作、智能装配、医疗手术等领域。通过提升机器人对未知物体的感知能力,使其能够更好地完成复杂的操作任务。未来,该技术有望应用于更广泛的机器人应用场景,例如家庭服务机器人、工业自动化机器人等。
📄 摘要(原文)
To achieve human-level dexterity, robots must infer spatial awareness from multimodal sensing to reason over contact interactions. During in-hand manipulation of novel objects, such spatial awareness involves estimating the object's pose and shape. The status quo for in-hand perception primarily employs vision, and restricts to tracking a priori known objects. Moreover, visual occlusion of objects in-hand is imminent during manipulation, preventing current systems to push beyond tasks without occlusion. We combine vision and touch sensing on a multi-fingered hand to estimate an object's pose and shape during in-hand manipulation. Our method, NeuralFeels, encodes object geometry by learning a neural field online and jointly tracks it by optimizing a pose graph problem. We study multimodal in-hand perception in simulation and the real-world, interacting with different objects via a proprioception-driven policy. Our experiments show final reconstruction F-scores of $81$% and average pose drifts of $4.7\,\text{mm}$, further reduced to $2.3\,\text{mm}$ with known CAD models. Additionally, we observe that under heavy visual occlusion we can achieve up to $94$% improvements in tracking compared to vision-only methods. Our results demonstrate that touch, at the very least, refines and, at the very best, disambiguates visual estimates during in-hand manipulation. We release our evaluation dataset of 70 experiments, FeelSight, as a step towards benchmarking in this domain. Our neural representation driven by multimodal sensing can serve as a perception backbone towards advancing robot dexterity. Videos can be found on our project website https://suddhu.github.io/neural-feels/