OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning
作者: Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yuzheng Zhuang, Bowen Yang, He Zhu, Lingfeng Zhang, Pengwei Xie, David Gamaliel Arcos Bravo, Yingxue Zhang, Jianye Hao, Xingyue Quan
分类: cs.RO, cs.AI, cs.CL, cs.CV
发布日期: 2025-09-11 (更新: 2025-09-12)
💡 一句话要点
OmniEVA:通过任务自适应3D感知和具身认知实现通用具身规划
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身智能 多模态大语言模型 3D感知 任务规划 具身推理 机器人 几何适应性 具身约束
📋 核心要点
- 现有基于MLLM的具身智能系统在几何适应性和具身约束方面存在差距,难以适应多样化的空间需求和物理限制。
- OmniEVA通过任务自适应3D感知和具身感知推理框架,实现上下文感知的3D信息融合和考虑机器人物理约束的规划决策。
- 实验结果表明,OmniEVA在通用具身推理性能方面达到了最先进水平,并在各种下游场景中展现出强大的规划能力。
📝 摘要(中文)
多模态大型语言模型(MLLM)的最新进展为具身智能开辟了新的机遇,实现了多模态理解、推理和交互,以及连续的空间决策。然而,目前基于MLLM的具身系统面临两个关键限制。首先是几何适应性差距:仅在2D输入上训练或采用硬编码3D几何注入的模型,要么空间信息不足,要么2D泛化能力受限,导致在具有不同空间需求的任务中适应性较差。其次是具身约束差距:先前的工作常常忽略真实机器人的物理约束和能力,导致理论上有效但实际上不可行的任务计划。为了解决这些差距,我们引入了OmniEVA——一种具身通用规划器,通过两项关键创新实现高级具身推理和任务规划:(1)任务自适应3D感知机制,引入门控路由器来执行基于上下文需求的显式选择性3D融合,从而实现针对不同具身任务的上下文感知3D感知。(2)具身感知推理框架,将任务目标和具身约束联合纳入推理循环,从而产生既有目标导向又可执行的规划决策。大量的实验结果表明,OmniEVA不仅实现了最先进的通用具身推理性能,而且在各种下游场景中表现出强大的能力。对一套提出的具身基准(包括原始任务和复合任务)的评估证实了其稳健和通用的规划能力。
🔬 方法详解
问题定义:现有基于多模态大语言模型的具身智能系统,在处理不同空间几何结构的任务时,由于缺乏足够的3D空间信息或受限于2D泛化能力,导致几何适应性不足。同时,这些系统往往忽略了真实机器人的物理约束,生成的任务计划在实际中难以执行。因此,需要解决如何在具身智能系统中实现任务自适应的3D感知和具身约束推理的问题。
核心思路:OmniEVA的核心思路是通过任务自适应的3D信息融合,使模型能够根据不同的任务需求选择性地利用3D信息,从而提高几何适应性。同时,将任务目标和具身约束联合纳入推理循环,确保生成的任务计划既能实现目标,又符合机器人的物理能力。
技术框架:OmniEVA的整体框架包含两个主要模块:任务自适应3D感知模块和具身感知推理模块。任务自适应3D感知模块负责从多模态输入中提取3D信息,并根据任务需求进行选择性融合。具身感知推理模块则利用融合后的3D信息、任务目标和具身约束进行推理,生成可执行的任务计划。整个流程是一个迭代的过程,不断优化任务计划,直到满足所有约束条件。
关键创新:OmniEVA的关键创新在于任务自适应3D感知机制和具身感知推理框架。任务自适应3D感知机制通过门控路由器实现对3D信息的选择性融合,使得模型能够根据上下文需求动态调整对不同3D信息的关注程度。具身感知推理框架则将任务目标和具身约束联合建模,确保生成的任务计划既有目标导向,又符合实际的物理限制。
关键设计:任务自适应3D感知模块中的门控路由器采用注意力机制,根据上下文信息计算每个3D特征的重要性权重,并利用这些权重对3D特征进行加权融合。具身感知推理框架中,使用强化学习算法训练模型,奖励函数的设计同时考虑了任务目标的完成度和具身约束的满足程度。具体的网络结构和参数设置根据不同的任务场景进行调整。
📊 实验亮点
实验结果表明,OmniEVA在多个具身智能基准测试中取得了最先进的性能。例如,在复合任务的规划成功率上,OmniEVA相比于现有方法提升了显著的百分比(具体数值需要在论文中查找)。此外,OmniEVA在不同类型的机器人平台上也展现出了良好的泛化能力,证明了其鲁棒性和通用性。
🎯 应用场景
OmniEVA具有广泛的应用前景,例如在家庭服务机器人、工业自动化、医疗辅助等领域。它可以帮助机器人更好地理解环境,执行复杂的任务,并与人类进行更自然的交互。未来,OmniEVA有望成为通用具身智能系统的核心组成部分,推动机器人技术的发展。
📄 摘要(原文)
Recent advances in multimodal large language models (MLLMs) have opened new opportunities for embodied intelligence, enabling multimodal understanding, reasoning, and interaction, as well as continuous spatial decision-making. Nevertheless, current MLLM-based embodied systems face two critical limitations. First, Geometric Adaptability Gap: models trained solely on 2D inputs or with hard-coded 3D geometry injection suffer from either insufficient spatial information or restricted 2D generalization, leading to poor adaptability across tasks with diverse spatial demands. Second, Embodiment Constraint Gap: prior work often neglects the physical constraints and capacities of real robots, resulting in task plans that are theoretically valid but practically infeasible. To address these gaps, we introduce OmniEVA -- an embodied versatile planner that enables advanced embodied reasoning and task planning through two pivotal innovations: (1) a Task-Adaptive 3D Grounding mechanism, which introduces a gated router to perform explicit selective regulation of 3D fusion based on contextual requirements, enabling context-aware 3D grounding for diverse embodied tasks. (2) an Embodiment-Aware Reasoning framework that jointly incorporates task goals and embodiment constraints into the reasoning loop, resulting in planning decisions that are both goal-directed and executable. Extensive experimental results demonstrate that OmniEVA not only achieves state-of-the-art general embodied reasoning performance, but also exhibits a strong ability across a wide range of downstream scenarios. Evaluations of a suite of proposed embodied benchmarks, including both primitive and composite tasks, confirm its robust and versatile planning capabilities. Project page: https://omnieva.github.io