ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments
作者: Ziyang Gong, Zehang Luo, Anke Tang, Zhe Liu, Shi Fu, Zhi Hou, Ganlin Yang, Weiyun Wang, Xiaofeng Wang, Jianbo Liu, Gen Luo, Haolan Kang, Shuang Luo, Yue Zhou, Yong Luo, Li Shen, Xiaosong Jia, Yao Mu, Xue Yang, Chunxiao Liu, Junchi Yan, Hengshuang Zhao, Dacheng Tao, Xiaogang Wang
分类: cs.RO, cs.CL, cs.CV
发布日期: 2026-03-03
备注: Code: https://github.com/ACE-BRAIN-Team/ACE-Brain-0 Hugging Face: https://huggingface.co/ACE-Brain/ACE-Brain-0-8B
💡 一句话要点
ACE-Brain-0:提出基于空间智能的通用具身智能框架,解决跨异构载体的泛化难题。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 通用具身智能 空间智能 多模态大型语言模型 跨载体迁移 支架-专业化-协调
📋 核心要点
- 现有具身智能模型在异构载体上训练时,面临长尾数据、梯度干扰和灾难性遗忘等问题,难以平衡通用泛化能力和领域特定熟练度。
- 论文提出ACE-Brain-0,利用空间智能作为通用支架,通过支架-专业化-协调(SSR)范式,实现跨载体的知识迁移和融合。
- 实验结果表明,ACE-Brain-0在24个空间和具身相关的基准测试中取得了优异的性能,证明了该方法的有效性。
📝 摘要(中文)
本文提出了ACE-Brain-0,一个通用的基础大脑,旨在统一空间推理、自动驾驶和具身操作。该模型基于多模态大型语言模型(MLLM)。核心思想是空间智能作为跨不同物理载体的通用支架:车辆、机器人和无人机在形态上差异巨大,但它们都需要建模3D心理空间,使得空间认知成为跨载体迁移的自然、领域无关的基础。为此,论文提出了支架-专业化-协调(SSR)范式,首先建立共享的空间基础,然后培养领域专业专家,最后通过无数据模型合并来协调它们。此外,采用群体相对策略优化(GRPO)来加强模型的综合能力。实验结果表明,ACE-Brain-0在24个空间和具身相关的基准测试中取得了有竞争力的甚至是最先进的性能。
🔬 方法详解
问题定义:现有通用具身智能模型难以在异构载体(如自动驾驶车辆、机器人、无人机)上实现良好的泛化性能。主要痛点在于不同载体的数据分布差异大,导致训练过程中出现长尾数据、梯度干扰和灾难性遗忘等问题,难以兼顾通用性和特定领域的性能。
核心思路:论文的核心思路是利用空间智能作为不同载体之间的通用桥梁。虽然不同载体的形态和操作方式各异,但它们都需要对3D空间进行建模和推理。因此,将空间认知作为基础,可以实现跨载体的知识迁移和共享。
技术框架:ACE-Brain-0的整体框架基于多模态大型语言模型(MLLM),并采用支架-专业化-协调(SSR)范式。首先,利用通用空间数据集训练一个共享的空间基础模型(支架)。然后,针对不同的载体(如自动驾驶、机器人),利用特定领域的数据训练领域专家模型(专业化)。最后,通过无数据模型合并技术,将共享的空间基础模型和领域专家模型进行融合,得到最终的ACE-Brain-0模型(协调)。此外,还采用了群体相对策略优化(GRPO)来提升模型的综合能力。
关键创新:最重要的技术创新点在于将空间智能作为通用具身智能的共享支架。与以往直接在异构数据上训练通用模型的方法不同,ACE-Brain-0首先建立一个通用的空间认知基础,然后在此基础上进行领域专业化,从而避免了数据分布差异带来的问题。此外,SSR范式和GRPO也都是重要的技术创新。
关键设计:论文中关于关键设计的细节描述较少,具体参数设置、损失函数和网络结构等信息未知。但可以推测,空间基础模型的训练可能采用了对比学习或自监督学习等方法,以学习通用的空间表征。领域专家模型的训练则可能采用了强化学习或模仿学习等方法,以学习特定载体的控制策略。无数据模型合并可能采用了权重平均或知识蒸馏等技术。
📊 实验亮点
ACE-Brain-0在24个空间和具身相关的基准测试中取得了有竞争力的甚至是最先进的性能。具体的性能数据和对比基线未知,但总体结果表明,该模型在跨载体泛化能力方面具有显著优势,验证了空间智能作为通用支架的有效性。
🎯 应用场景
ACE-Brain-0具有广泛的应用前景,可用于开发更智能、更通用的机器人、自动驾驶系统和无人机。例如,可以将其应用于复杂环境下的机器人导航、自动驾驶车辆的感知和决策、无人机的自主飞行和任务执行等。该研究有望推动通用人工智能的发展,使智能体能够更好地适应不同的环境和任务。
📄 摘要(原文)
Universal embodied intelligence demands robust generalization across heterogeneous embodiments, such as autonomous driving, robotics, and unmanned aerial vehicles (UAVs). However, existing embodied brain in training a unified model over diverse embodiments frequently triggers long-tail data, gradient interference, and catastrophic forgetting, making it notoriously difficult to balance universal generalization with domain-specific proficiency. In this report, we introduce ACE-Brain-0, a generalist foundation brain that unifies spatial reasoning, autonomous driving, and embodied manipulation within a single multimodal large language model~(MLLM). Our key insight is that spatial intelligence serves as a universal scaffold across diverse physical embodiments: although vehicles, robots, and UAVs differ drastically in morphology, they share a common need for modeling 3D mental space, making spatial cognition a natural, domain-agnostic foundation for cross-embodiment transfer. Building on this insight, we propose the Scaffold-Specialize-Reconcile~(SSR) paradigm, which first establishes a shared spatial foundation, then cultivates domain-specialized experts, and finally harmonizes them through data-free model merging. Furthermore, we adopt Group Relative Policy Optimization~(GRPO) to strengthen the model's comprehensive capability. Extensive experiments demonstrate that ACE-Brain-0 achieves competitive and even state-of-the-art performance across 24 spatial and embodiment-related benchmarks.