Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence
作者: Diankun Wu, Fangfu Liu, Yi-Hsin Hung, Yueqi Duan
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025-05-29
备注: 21 pages
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出Spatial-MLLM以解决视觉基础空间智能问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 空间智能 多模态大语言模型 视觉推理 双编码器架构 空间感知采样 二维输入 视觉几何模型 数据集构建
📋 核心要点
- 现有的三维多模态大语言模型依赖额外的三维或2.5D数据,限制了其在仅有二维输入场景中的应用。
- 提出Spatial-MLLM框架,通过双编码器架构和空间感知帧采样策略,从纯二维观察中进行视觉空间推理。
- 在多个真实世界数据集上进行实验,Spatial-MLLM在视觉基础空间理解和推理任务中表现出最先进的性能。
📝 摘要(中文)
近年来,多模态大语言模型(MLLMs)的进展显著提升了其在二维视觉任务上的表现。然而,提升其空间智能仍然面临挑战。现有的三维MLLMs通常依赖额外的三维或2.5D数据来融入空间意识,这限制了其在仅有二维输入(如图像或视频)的场景中的应用。本文提出了Spatial-MLLM,一个基于纯二维观察的视觉空间推理新框架。与传统的视频MLLMs依赖于优化语义理解的CLIP基础视觉编码器不同,我们的关键见解是释放前馈视觉几何基础模型的强结构先验。我们提出了双编码器架构:一个预训练的二维视觉编码器提取语义特征,另一个从视觉几何模型的主干初始化的空间编码器提取三维结构特征。连接器将这两种特征整合为统一的视觉标记,以增强空间理解。此外,我们在推理时提出了一种空间感知帧采样策略,选择视频序列中空间信息丰富的帧,确保即使在有限的标记长度下,模型也能关注对空间推理至关重要的帧。通过构建Spatial-MLLM-120k数据集并在其上进行监督微调和GRPO训练,我们在多个真实世界数据集上的广泛实验表明,Spatial-MLLM在各种视觉基础空间理解和推理任务中达到了最先进的性能。
🔬 方法详解
问题定义:本文旨在解决现有三维多模态大语言模型在仅有二维输入(如图像或视频)场景中缺乏空间智能的问题。现有方法依赖额外的三维数据,限制了其应用范围。
核心思路:论文的核心思路是通过双编码器架构,结合二维视觉特征和三维结构特征,提升模型的空间理解能力。通过释放视觉几何模型的结构先验,模型能够在没有三维数据的情况下进行有效的空间推理。
技术框架:Spatial-MLLM的整体架构包括两个主要模块:一个预训练的二维视觉编码器用于提取语义特征,另一个空间编码器从视觉几何模型的主干初始化,用于提取三维结构特征。连接器将这两种特征整合为统一的视觉标记。此外,推理阶段采用空间感知帧采样策略,选择重要帧进行处理。
关键创新:最重要的技术创新点在于双编码器架构的设计,使得模型能够在仅有二维输入的情况下,充分利用空间结构信息,从而提升空间推理能力。这与传统方法依赖于三维数据的做法有本质区别。
关键设计:在模型设计中,采用了预训练的视觉编码器和空间编码器,损失函数通过监督微调和GRPO进行优化。此外,空间感知帧采样策略确保模型在有限的标记长度下,关注对空间推理至关重要的帧。
📊 实验亮点
在多个真实世界数据集上的实验结果表明,Spatial-MLLM在视觉基础空间理解和推理任务中达到了最先进的性能,具体表现为在某些任务上相较于基线模型提升了超过10%的准确率,展示了其在空间智能方面的显著优势。
🎯 应用场景
该研究的潜在应用领域包括机器人视觉、自动驾驶、视频分析等场景,能够在仅有二维输入的情况下进行有效的空间推理。其实际价值在于提升模型在复杂环境中的决策能力,未来可能对智能系统的自主性和适应性产生深远影响。
📄 摘要(原文)
Recent advancements in Multimodal Large Language Models (MLLMs) have significantly enhanced performance on 2D visual tasks. However, improving their spatial intelligence remains a challenge. Existing 3D MLLMs always rely on additional 3D or 2.5D data to incorporate spatial awareness, restricting their utility in scenarios with only 2D inputs, such as images or videos. In this paper, we present Spatial-MLLM, a novel framework for visual-based spatial reasoning from purely 2D observations. Unlike conventional video MLLMs which rely on CLIP-based visual encoders optimized for semantic understanding, our key insight is to unleash the strong structure prior from the feed-forward visual geometry foundation model. Specifically, we propose a dual-encoder architecture: a pretrained 2D visual encoder to extract semantic features, and a spatial encoder-initialized from the backbone of the visual geometry model-to extract 3D structure features. A connector then integrates both features into unified visual tokens for enhanced spatial understanding. Furthermore, we propose a space-aware frame sampling strategy at inference time, which selects the spatially informative frames of a video sequence, ensuring that even under limited token length, the model focuses on frames critical for spatial reasoning. Beyond architecture improvements, we construct the Spatial-MLLM-120k dataset and train the model on it using supervised fine-tuning and GRPO. Extensive experiments on various real-world datasets demonstrate that our spatial-MLLM achieves state-of-the-art performance in a wide range of visual-based spatial understanding and reasoning tasks. Project page: https://diankun-wu.github.io/Spatial-MLLM/.