Towards Proprioception-Aware Embodied Planning for Dual-Arm Humanoid Robots

📄 arXiv: 2510.07882v2 📥 PDF

作者: Boyu Li, Siyuan He, Hang Xu, Haoqi Yuan, Xinrun Xu, Yu Zang, Liwei Hu, Junpeng Yue, Zhenxiong Jiang, Pengbo Hu, Börje F. Karlsson, Yehui Tang, Zongqing Lu

分类: cs.RO

发布日期: 2025-10-09 (更新: 2025-10-15)


💡 一句话要点

提出Proprio-MLLM,增强双臂人形机器人具身规划的本体感知能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 人形机器人 多模态大语言模型 本体感受 任务规划

📋 核心要点

  1. 现有MLLM在双臂人形机器人长时程任务中表现受限,缺乏合适的仿真平台和足够的具身感知能力是主要瓶颈。
  2. 论文提出Proprio-MLLM,通过融合本体感受信息和运动嵌入,增强模型对机器人自身状态和空间关系的理解。
  3. 实验表明,Proprio-MLLM在DualTHOR模拟器中显著提升了规划性能,平均提升幅度达到19.75%。

📝 摘要(中文)

近年来,多模态大型语言模型(MLLM)已展现出作为高级规划器的潜力,使机器人能够遵循复杂的人类指令。然而,它们在涉及双臂人形机器人的长时程任务中的有效性仍然有限。这主要源于两个挑战:(i)缺乏系统性地支持人形机器人任务评估和数据收集的仿真平台,以及(ii)当前MLLM的具身感知不足,这阻碍了规划过程中对双臂选择逻辑和身体位置的推理。为了解决这些问题,我们提出了DualTHOR,一种新的双臂人形机器人模拟器,具有连续转换和应急机制。在此平台的基础上,我们提出了Proprio-MLLM,该模型通过结合本体感受信息、基于运动的位置嵌入和跨空间编码器来增强具身感知能力。实验表明,虽然现有的MLLM在此环境中表现不佳,但Proprio-MLLM在规划性能方面平均提高了19.75%。我们的工作提供了一个重要的仿真平台和一个有效的模型,以推进人形机器人中的具身智能。

🔬 方法详解

问题定义:现有MLLM在双臂人形机器人任务规划中面临挑战,主要体现在两个方面:一是缺乏专门为人形机器人设计的仿真环境,难以进行有效的数据收集和模型评估;二是MLLM对机器人的自身状态(如关节角度、身体姿态)和空间关系感知不足,导致难以进行合理的动作规划和双臂协同。

核心思路:论文的核心思路是通过引入本体感受信息来增强MLLM的具身感知能力。具体来说,将机器人的关节角度等本体感受信息与视觉信息相结合,使模型能够更好地理解机器人的自身状态和周围环境,从而做出更合理的规划决策。同时,设计了新的仿真环境DualTHOR,为模型训练和评估提供支持。

技术框架:Proprio-MLLM的整体框架包括以下几个主要模块:1) 视觉编码器:用于提取场景的视觉特征;2) 本体感受编码器:用于提取机器人的关节角度等本体感受信息;3) 运动嵌入模块:将机器人的运动信息嵌入到特征空间中;4) 跨空间编码器:融合视觉特征、本体感受信息和运动嵌入,增强模型对机器人状态和环境的理解;5) 语言模型:根据融合后的特征进行任务规划。

关键创新:论文的关键创新在于:1) 提出了Proprio-MLLM,通过融合本体感受信息和运动嵌入,显著提升了MLLM在人形机器人任务规划中的性能;2) 设计了DualTHOR仿真环境,为人形机器人任务规划的研究提供了新的平台;3) 提出了跨空间编码器,有效地融合了视觉特征、本体感受信息和运动嵌入。

关键设计:在本体感受编码器中,使用了多层感知机(MLP)将关节角度等本体感受信息映射到特征空间中。运动嵌入模块使用Transformer网络对机器人的运动轨迹进行编码。跨空间编码器采用注意力机制,自适应地融合视觉特征、本体感受信息和运动嵌入。损失函数包括任务完成损失和动作合理性损失,用于指导模型学习合理的规划策略。

📊 实验亮点

实验结果表明,Proprio-MLLM在DualTHOR仿真环境中显著提升了规划性能,相比于现有的MLLM,平均提升幅度达到19.75%。这表明通过引入本体感受信息和运动嵌入,可以有效增强MLLM的具身感知能力,从而提高其在人形机器人任务规划中的性能。此外,DualTHOR仿真环境的发布也为该领域的研究提供了新的基准平台。

🎯 应用场景

该研究成果可应用于各种需要双臂人形机器人进行复杂操作的场景,例如智能制造、家庭服务、医疗辅助等。通过增强机器人的具身感知能力,可以使其更好地理解人类指令,完成更加精细和复杂的任务,提高工作效率和服务质量。未来,该技术有望推动人形机器人在实际生活中的广泛应用。

📄 摘要(原文)

In recent years, Multimodal Large Language Models (MLLMs) have demonstrated the ability to serve as high-level planners, enabling robots to follow complex human instructions. However, their effectiveness, especially in long-horizon tasks involving dual-arm humanoid robots, remains limited. This limitation arises from two main challenges: (i) the absence of simulation platforms that systematically support task evaluation and data collection for humanoid robots, and (ii) the insufficient embodiment awareness of current MLLMs, which hinders reasoning about dual-arm selection logic and body positions during planning. To address these issues, we present DualTHOR, a new dual-arm humanoid simulator, with continuous transition and a contingency mechanism. Building on this platform, we propose Proprio-MLLM, a model that enhances embodiment awareness by incorporating proprioceptive information with motion-based position embedding and a cross-spatial encoder. Experiments show that, while existing MLLMs struggle in this environment, Proprio-MLLM achieves an average improvement of 19.75% in planning performance. Our work provides both an essential simulation platform and an effective model to advance embodied intelligence in humanoid robotics. The code is available at https://anonymous.4open.science/r/DualTHOR-5F3B.