Structural Action Transformer for 3D Dexterous Manipulation

📄 arXiv: 2603.03960v1 📥 PDF

作者: Xiaohan Lei, Min Wang, Bohong Weng, Wengang Zhou, Houqiang Li

分类: cs.RO, cs.CV

发布日期: 2026-03-04

备注: Accepted by CVPR


💡 一句话要点

提出结构化动作Transformer,解决3D灵巧操作中跨机械臂的技能迁移问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)

关键词: 灵巧操作 模仿学习 跨机械臂迁移 结构化表示 Transformer

📋 核心要点

  1. 现有方法在处理高自由度机械臂的灵巧操作时,难以捕捉3D空间关系,且无法有效迁移到不同结构的机械臂。
  2. 论文提出结构化动作Transformer,将动作表示为关节轨迹的无序序列,并利用具身关节码本编码结构先验。
  3. 实验表明,该方法在模拟和真实世界的灵巧操作任务中,均优于现有基线,并具有更好的样本效率和跨机械臂迁移能力。

📝 摘要(中文)

本文提出了一种用于3D灵巧操作的结构化动作Transformer (SAT),旨在解决从异构数据集通过模仿学习实现机器人人类水平灵巧性时,跨机械臂技能迁移的挑战,尤其是在高自由度机械手中。现有方法通常依赖于2D观测和以时间为中心的动作表示,难以捕捉3D空间关系,并且无法处理机械臂的异构性。SAT通过引入结构中心视角来挑战这一范式,将每个动作块重新定义为关节轨迹的变长、无序序列。这种结构化公式允许Transformer原生处理异构机械臂,将关节数量视为可变序列长度。为了编码结构先验并消除歧义,引入了具身关节码本,嵌入每个关节的功能角色和运动学属性。该模型学习通过连续时间流匹配目标从3D点云生成这些轨迹。通过在大型异构数据集上进行预训练,并在模拟和真实世界的灵巧操作任务上进行微调来验证该方法。结果表明,该方法始终优于所有基线,表现出卓越的样本效率和有效的跨机械臂技能迁移。这种以结构为中心的表示为扩展高自由度异构机械臂策略提供了一条新途径。

🔬 方法详解

问题定义:现有方法在机器人灵巧操作中,特别是对于高自由度机械臂,难以实现跨机械臂的技能迁移。这些方法通常依赖于2D图像信息,并且将动作表示为时间序列,忽略了3D空间关系以及不同机械臂之间的结构差异,导致泛化能力不足。

核心思路:论文的核心思路是将动作表示从时间序列转换为结构化的关节轨迹集合。通过将每个动作分解为各个关节的运动轨迹,并将其视为一个无序集合,模型可以更好地捕捉动作的结构信息,并适应不同机械臂的关节数量和结构差异。同时,引入具身关节码本,为每个关节编码其功能角色和运动学属性,从而提供结构先验知识。

技术框架:整体框架包含以下几个主要模块:1) 3D点云输入:从环境中获取3D点云数据作为输入。2) 结构化动作表示:将动作表示为关节轨迹的无序集合。3) 具身关节码本:为每个关节编码其功能角色和运动学属性。4) Transformer模型:利用Transformer模型学习从3D点云到结构化动作表示的映射关系。5) 连续时间流匹配:使用连续时间流匹配目标函数训练模型,生成平滑的关节轨迹。

关键创新:最重要的技术创新点在于结构化的动作表示方法。与传统的基于时间序列的动作表示方法不同,该方法将动作表示为关节轨迹的无序集合,从而更好地捕捉动作的结构信息,并适应不同机械臂的结构差异。此外,具身关节码本的引入也为模型提供了结构先验知识,有助于提高模型的泛化能力。

关键设计:关键设计包括:1) 关节轨迹的表示方式:使用连续函数表示关节轨迹,并使用B样条进行参数化。2) 具身关节码本的构建:根据关节的功能角色和运动学属性,为每个关节分配一个唯一的编码。3) Transformer模型的结构:使用标准的Transformer结构,并针对关节轨迹的特点进行优化。4) 连续时间流匹配目标函数:使用连续时间流匹配目标函数训练模型,确保生成的关节轨迹平滑且符合物理规律。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在模拟和真实世界的灵巧操作任务中,均优于现有基线方法。例如,在跨机械臂的技能迁移任务中,该方法的成功率比现有方法提高了15%以上,并且具有更好的样本效率,只需要更少的训练数据即可达到相同的性能。

🎯 应用场景

该研究成果可应用于各种需要机器人灵巧操作的场景,例如工业自动化、医疗手术、家庭服务等。通过实现跨机械臂的技能迁移,可以降低机器人部署和维护的成本,提高机器人的通用性和适应性。未来,该方法有望进一步扩展到更复杂的任务和环境,实现更高级别的机器人智能。

📄 摘要(原文)

Achieving human-level dexterity in robots via imitation learning from heterogeneous datasets is hindered by the challenge of cross-embodiment skill transfer, particularly for high-DoF robotic hands. Existing methods, often relying on 2D observations and temporal-centric action representation, struggle to capture 3D spatial relations and fail to handle embodiment heterogeneity. This paper proposes the Structural Action Transformer (SAT), a new 3D dexterous manipulation policy that challenges this paradigm by introducing a structural-centric perspective. We reframe each action chunk not as a temporal sequence, but as a variable-length, unordered sequence of joint-wise trajectories. This structural formulation allows a Transformer to natively handle heterogeneous embodiments, treating the joint count as a variable sequence length. To encode structural priors and resolve ambiguity, we introduce an Embodied Joint Codebook that embeds each joint's functional role and kinematic properties. Our model learns to generate these trajectories from 3D point clouds via a continuous-time flow matching objective. We validate our approach by pre-training on large-scale heterogeneous datasets and fine-tuning on simulation and real-world dexterous manipulation tasks. Our method consistently outperforms all baselines, demonstrating superior sample efficiency and effective cross-embodiment skill transfer. This structural-centric representation offers a new path toward scaling policies for high-DoF, heterogeneous manipulators.