PhysGraph: Physically-Grounded Graph-Transformer Policies for Bimanual Dexterous Hand-Tool-Object Manipulation
作者: Runfa Blark Li, David Kim, Xinshuang Liu, Keito Suzuki, Dwait Bhatt, Nikola Raicevic, Xin Lin, Ki Myung Brian Lee, Nikolay Atanasov, Truong Nguyen
分类: cs.RO
发布日期: 2026-03-02
💡 一句话要点
提出PhysGraph,用于解决灵巧手-工具-物体双手动灵巧操作中的高维状态空间问题。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 双手动灵巧操作 图Transformer 物理约束 机器人操作 运动学图
📋 核心要点
- 双手动灵巧操作工具仍然是一个巨大的挑战,因为其状态空间维度高,接触动力学复杂。
- PhysGraph将双手动灵巧操作系统表示为运动学图,并引入物理约束偏置生成器,将结构先验注入注意力机制。
- 实验表明,PhysGraph在操作精度和任务成功率上优于基线,且具有零样本迁移能力,可应用于多种机器人手。
📝 摘要(中文)
本文提出了一种名为PhysGraph的物理约束图Transformer策略,专门用于解决具有挑战性的双手动灵巧手-工具-物体操作任务。与以往方法不同,该方法将双手动灵巧操作系统表示为一个运动学图,并引入了逐链路的tokenization来保留细粒度的局部状态信息。此外,论文还提出了一种物理约束偏置生成器,将运动学空间距离、动态接触状态、几何邻近度和解剖学属性等结构先验直接注入到注意力机制中。这使得策略能够显式地推理物理交互,而不是从稀疏奖励中隐式地学习。实验结果表明,PhysGraph在操作精度和任务成功率方面显著优于基线方法ManipTrans,同时仅使用了ManipTrans 51%的参数。此外,该架构固有的拓扑灵活性展示了对未见过的工具/物体几何形状的定性零样本迁移能力,并且足够通用,可以在三种机器人手(Shadow, Allegro, Inspire)上进行训练。
🔬 方法详解
问题定义:论文旨在解决双手动灵巧手-工具-物体操作中的高维状态空间和复杂接触动力学问题。现有方法通常将整个系统状态表示为单个配置向量,忽略了关节手的丰富结构和拓扑信息,导致难以有效学习复杂的物理交互。
核心思路:论文的核心思路是将双手动灵巧操作系统建模为运动学图,并利用图Transformer网络来学习操作策略。通过在图结构中编码物理先验知识,例如运动学距离、接触状态和几何邻近度,使策略能够更好地理解和利用物理交互。
技术框架:PhysGraph的整体架构包括以下几个主要模块:1) 运动学图构建模块,将双手动灵巧操作系统表示为节点和边的图结构;2) 逐链路Tokenization模块,为每个关节链路生成token,保留细粒度的局部状态信息;3) 物理约束偏置生成器,生成包含物理先验信息的偏置项;4) 图Transformer网络,利用偏置项增强的注意力机制学习操作策略。
关键创新:PhysGraph的关键创新在于物理约束偏置生成器,它将运动学空间距离、动态接触状态、几何邻近度和解剖学属性等结构先验直接注入到注意力机制中。这使得策略能够显式地推理物理交互,而不是像传统方法那样从稀疏奖励中隐式地学习。
关键设计:物理约束偏置生成器通过计算节点之间的运动学距离、接触状态和几何邻近度来生成偏置项。这些偏置项被添加到图Transformer网络的注意力权重中,从而引导网络关注具有物理相关性的节点。损失函数包括模仿学习损失和稀疏奖励损失,用于训练策略。
🖼️ 关键图片
📊 实验亮点
PhysGraph在操作精度和任务成功率方面显著优于基线方法ManipTrans,同时仅使用了ManipTrans 51%的参数。在多个机器人手上进行了实验,包括Shadow, Allegro, Inspire。此外,该架构展示了对未见过的工具/物体几何形状的定性零样本迁移能力。
🎯 应用场景
该研究成果可应用于各种需要灵巧操作的机器人任务,例如装配、医疗手术、家庭服务等。通过提高机器人操作的精度和鲁棒性,可以实现更安全、更高效的自动化操作,从而提升生产效率和服务质量。未来,该方法有望扩展到更复杂的环境和任务中。
📄 摘要(原文)
Bimanual dexterous manipulation for tool use remains a formidable challenge in robotics due to the high-dimensional state space and complicated contact dynamics. Existing methods naively represent the entire system state as a single configuration vector, disregarding the rich structural and topological information inherent to articulated hands. We present PhysGraph, a physically-grounded graph transformer policy designed explicitly for challenging bimanual hand-tool-object manipulation. Unlike prior works, we represent the bimanual system as a kinematic graph and introduce per-link tokenization to preserve fine-grained local state information. We propose a physically-grounded bias generator that injects structural priors directly into the attention mechanism, including kinematic spatial distance, dynamic contact states, geometric proximity, and anatomical properties. This allows the policy to explicitly reason about physical interactions rather than learning them implicitly from sparse rewards. Extensive experiments show that PhysGraph significantly outperforms baseline - ManipTrans in manipulation precision and task success rates while using only 51% of the parameters of ManipTrans. Furthermore, the inherent topological flexibility of our architecture shows qualitative zero-shot transfer to unseen tool/object geometries, and is sufficiently general to be trained on three robotic hands (Shadow, Allegro, Inspire).