Spatial Reasoning in Foundation Models: Benchmarking Object-Centric Spatial Understanding

作者: Vahid Mirjalili, Ramin Giahi, Sriram Kollipara, Akshay Kekuda, Kehui Yao, Kai Zhao, Jianpeng Xu, Kaushiki Nag, Sinduja Subramaniam, Topojoy Biswas, Evren Korpeoglu, Kannan Achan

分类: cs.CV

发布日期: 2025-09-26

备注: 4 pages, NeurIPS Workshop SpaVLE

💡 一句话要点

提出系统基准以解决视觉模型空间理解不足问题

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 空间理解 视觉模型 基准测试 物体推理 视觉语言模型 深度学习 合成数据集

📋 核心要点

现有的视觉模型在空间理解方面存在不足，尤其是在物体关系和相对位置的推理上。
本文提出了一个系统的基准，专注于物体中心的空间推理能力，利用合成数据集进行评估。
实验结果显示，检测器在定位精度上表现优异，但在空间推理上存在局限，强调了对空间感知模型的需求。

📝 摘要（中文）

空间理解是视觉基础模型的重要能力。尽管近年来大型视觉模型和视觉语言模型的识别能力有所提升，但大多数基准测试强调定位精度，而忽视了模型是否能够捕捉场景中物体的排列和关系。有效的场景理解不仅需要识别物体，还需要推理它们的相对位置、分组和深度。本文提出了一个系统的基准，用于评估基础模型的物体中心空间推理能力。通过使用受控的合成数据集，我们评估了多种最先进的视觉模型和大型视觉语言模型在空间定位、空间推理和下游检索任务中的表现。研究发现，检测器如GroundingDINO和OWLv2提供了精确的边界框，但在关系推理方面有限，而像SmolVLM和GPT-4o这样的视觉语言模型则提供了粗略的布局线索和流畅的描述，但在细粒度空间上下文方面表现不佳。我们的研究突显了定位与真实空间理解之间的差距，并指向了社区对空间感知基础模型的需求。

🔬 方法详解

问题定义：本文旨在解决现有视觉模型在空间理解方面的不足，特别是物体之间关系的推理能力不足。现有方法多集中于定位精度，忽视了物体的相对位置和深度关系。

核心思路：论文通过建立一个系统的基准来评估基础模型的空间推理能力，强调物体中心的空间关系，而不仅仅是物体的识别。

技术框架：研究使用了一个受控的合成数据集，评估了多种最先进的视觉模型和视觉语言模型，任务包括空间定位、空间推理和下游检索。

关键创新：最重要的创新在于提出了一个系统的基准，填补了现有方法在空间理解方面的空白，强调了空间推理在视觉任务中的重要性。

关键设计：在实验中，使用了多种模型进行对比，设置了不同的任务和评估指标，以全面评估模型在空间理解方面的能力。

📊 实验亮点

实验结果表明，GroundingDINO和OWLv2在空间定位任务中表现优异，提供了高精度的边界框，但在空间推理方面表现有限。相比之下，SmolVLM和GPT-4o在生成流畅描述方面表现良好，但在细粒度空间上下文的理解上存在困难。这些发现强调了空间理解能力的提升需求。

🎯 应用场景

该研究的潜在应用领域包括自动驾驶、机器人导航、增强现实等需要深度空间理解的场景。通过提升模型的空间推理能力，可以显著改善这些领域的智能系统表现，推动相关技术的发展与应用。

📄 摘要（原文）

Spatial understanding is a critical capability for vision foundation models. While recent advances in large vision models or vision-language models (VLMs) have expanded recognition capabilities, most benchmarks emphasize localization accuracy rather than whether models capture how objects are arranged and related within a scene. This gap is consequential; effective scene understanding requires not only identifying objects, but reasoning about their relative positions, groupings, and depth. In this paper, we present a systematic benchmark for object-centric spatial reasoning in foundation models. Using a controlled synthetic dataset, we evaluate state-of-the-art vision models (e.g., GroundingDINO, Florence-2, OWLv2) and large VLMs (e.g., InternVL, LLaVA, GPT-4o) across three tasks: spatial localization, spatial reasoning, and downstream retrieval tasks. We find a stable trade-off: detectors such as GroundingDINO and OWLv2 deliver precise boxes with limited relational reasoning, while VLMs like SmolVLM and GPT-4o provide coarse layout cues and fluent captions but struggle with fine-grained spatial context. Our study highlights the gap between localization and true spatial understanding, and pointing toward the need for spatially-aware foundation models in the community.

Spatial Reasoning in Foundation Models: Benchmarking Object-Centric Spatial Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册