HEX: Humanoid-Aligned Experts for Cross-Embodiment Whole-Body Manipulation

📄 arXiv: 2604.07993v1 📥 PDF

作者: Shuanghao Bai, Meng Li, Xinyuan Lv, Jiawei Wang, Xinhua Wang, Fei Liao, Chengkai Hou, Langzhe Gu, Wanqi Zhou, Kun Wu, Ziluo Ding, Zhiyuan Xu, Lei Sun, Shanghang Zhang, Zhengping Che, Jian Tang, Badong Chen

分类: cs.RO

发布日期: 2026-04-09

备注: Project page: https://hex-humanoid.github.io/


💡 一句话要点

HEX:面向跨具身全身操作的人形对齐专家系统

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人形机器人 全身操作 视觉语言动作 混合专家模型 跨具身学习

📋 核心要点

  1. 现有VLA模型通常独立处理机器人身体部位,导致高自由度人形机器人控制不稳定,难以实现复杂操作。
  2. HEX提出人形对齐的通用状态表示和混合专家预测器,从多具身数据中学习全身协调和时间运动动力学。
  3. 实验表明,HEX在真实人形机器人操作任务中,尤其在快速反应和长时程场景下,显著提升了任务成功率和泛化能力。

📝 摘要(中文)

本文提出HEX,一个以状态为中心的框架,用于全尺寸双足人形机器人的协调操作。HEX引入了一种人形对齐的通用状态表示,用于跨异构具身的可扩展学习,并结合了混合专家统一本体感受预测器,以从大规模多具身轨迹数据中建模全身协调和时间运动动力学。为了有效地捕获时间视觉上下文,HEX使用轻量级的历史令牌来总结过去的观察,避免在推理过程中重复编码历史图像。它还采用了一种带有流匹配动作头的残差门控融合机制,以自适应地将视觉-语言线索与本体感受动力学相结合,从而生成动作。在真实世界的人形操作任务上的实验表明,HEX在任务成功率和泛化方面实现了最先进的性能,尤其是在快速反应和长时程场景中。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)模型在控制高自由度人形机器人进行全身协调操作时面临挑战。这些模型通常将机器人身体各部分视为独立个体,忽略了它们之间的复杂依赖关系,导致控制不稳定,难以完成需要全身配合的复杂任务。此外,不同机器人平台(具身)之间的知识迁移也是一个难题。

核心思路:HEX的核心在于学习一个通用的、人形对齐的状态表示,并利用混合专家模型来预测全身运动动力学。通过将不同具身的数据映射到统一的状态空间,HEX能够实现跨平台知识迁移。混合专家模型则能够更好地捕捉全身各关节之间的复杂依赖关系,从而实现更协调、更稳定的控制。此外,利用历史token来压缩历史信息,避免重复计算,提高效率。

技术框架:HEX框架主要包含以下几个模块:1) 人形对齐的通用状态表示:将不同具身的状态信息映射到统一的表示空间。2) 混合专家统一本体感受预测器:利用混合专家模型预测全身运动动力学。3) 轻量级历史令牌:用于总结过去观察,避免重复编码历史图像。4) 残差门控融合机制:自适应地融合视觉-语言线索与本体感受动力学,生成动作。整体流程是:首先,将视觉和语言信息编码为特征向量,并结合历史令牌。然后,利用残差门控融合机制将视觉-语言特征与本体感受预测器的输出进行融合。最后,通过流匹配动作头生成控制指令。

关键创新:HEX的关键创新在于:1) 提出了一种人形对齐的通用状态表示,实现了跨具身知识迁移。2) 引入了混合专家统一本体感受预测器,能够更好地建模全身协调和时间运动动力学。3) 使用轻量级历史令牌,有效降低了计算复杂度。4) 采用残差门控融合机制,自适应地融合视觉-语言线索与本体感受动力学。

关键设计:在人形对齐的状态表示方面,论文可能采用了某种归一化或嵌入方法,将不同具身的状态信息映射到统一的空间。混合专家模型可能采用了门控网络来选择不同的专家进行预测。历史令牌的设计可能借鉴了Transformer中的注意力机制。残差门控融合机制可能采用了可学习的权重来控制视觉-语言线索和本体感受动力学的贡献。损失函数可能包括运动学损失、动力学损失以及任务相关的奖励函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HEX在真实世界的人形操作任务中取得了显著的性能提升。实验结果表明,HEX在任务成功率和泛化能力方面均优于现有方法,尤其是在快速反应和长时程场景下。具体的数据提升幅度未知,但摘要强调了其state-of-the-art的性能。

🎯 应用场景

HEX具有广泛的应用前景,例如:1) 复杂环境下的机器人操作,如家庭服务、医疗辅助等。2) 危险环境下的机器人作业,如灾难救援、核电站维护等。3) 虚拟现实和增强现实中的人机交互。该研究有望推动人形机器人技术的发展,使其能够更好地服务于人类社会。

📄 摘要(原文)

Humans achieve complex manipulation through coordinated whole-body control, whereas most Vision-Language-Action (VLA) models treat robot body parts largely independently, making high-DoF humanoid control challenging and often unstable. We present HEX, a state-centric framework for coordinated manipulation on full-sized bipedal humanoid robots. HEX introduces a humanoid-aligned universal state representation for scalable learning across heterogeneous embodiments, and incorporates a Mixture-of-Experts Unified Proprioceptive Predictor to model whole-body coordination and temporal motion dynamics from large-scale multi-embodiment trajectory data. To efficiently capture temporal visual context, HEX uses lightweight history tokens to summarize past observations, avoiding repeated encoding of historical images during inference. It further employs a residual-gated fusion mechanism with a flow-matching action head to adaptively integrate visual-language cues with proprioceptive dynamics for action generation. Experiments on real-world humanoid manipulation tasks show that HEX achieves state-of-the-art performance in task success rate and generalization, particularly in fast-reaction and long-horizon scenarios.