SpatialText: A Pure-Text Cognitive Benchmark for Spatial Understanding in Large Language Models

📄 arXiv: 2603.03002v1 📥 PDF

作者: Peiyao Jiang, Zequn Qin, Xi Li

分类: cs.AI

发布日期: 2026-03-03


💡 一句话要点

SpatialText:用于评估大语言模型空间理解能力的纯文本认知基准

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 空间推理 大语言模型 认知基准 文本理解 空间表征 视角转换 局部参考框架

📋 核心要点

  1. 现有基准测试难以区分大语言模型内在空间认知能力与统计语言启发式,多模态评估易混淆空间推理与视觉感知。
  2. SpatialText通过整合人工标注的真实3D室内环境描述和代码生成的逻辑精确场景,隔离基于文本的空间推理。
  3. 实验表明,模型擅长检索空间事实和全局坐标系操作,但在视角转换和局部参考框架推理方面存在不足。

📝 摘要(中文)

真正的空间推理依赖于构建和操纵连贯的内部空间表征(通常概念化为心理模型)的能力,而不仅仅是处理表面的语言关联。虽然大型语言模型在各个领域都表现出先进的能力,但现有的基准测试未能将这种内在的空间认知与统计语言启发式方法区分开来。此外,多模态评估经常将真正的空间推理与视觉感知混淆。为了系统地研究模型是否构建灵活的空间心理模型,我们引入了SpatialText,一个理论驱动的诊断框架。SpatialText并非简单地作为一个数据集,而是通过双源方法隔离基于文本的空间推理。它整合了人工标注的真实3D室内环境描述(捕捉了自然的歧义、视角转换和功能关系)以及代码生成的、逻辑上精确的场景(旨在探测形式空间演绎和认知边界)。对最先进模型的系统评估揭示了基本的表征局限性。虽然模型在检索显式空间事实和在全球、以自我为中心的坐标系中操作方面表现出熟练程度,但它们在以自我为中心的视角转换和局部参考框架推理方面表现出严重的失败。这些系统性错误提供了强有力的证据,表明当前的模型严重依赖于语言共现启发式方法,而不是构建连贯的、可验证的内部空间表征。因此,SpatialText是诊断人工空间智能认知边界的严格工具。

🔬 方法详解

问题定义:现有的大语言模型在空间推理方面表现出一定的能力,但它们是否真正理解空间关系,还是仅仅依赖于语言的统计规律?现有的基准测试要么无法将空间推理与语言理解分离,要么依赖于视觉信息,无法纯粹地评估模型的空间认知能力。因此,需要一个能够严格评估模型是否构建了连贯、可验证的内部空间表征的基准。

核心思路:SpatialText的核心思路是通过构建一个纯文本的空间推理基准,来诊断大语言模型是否真正具备空间认知能力。该基准通过结合人工标注的真实3D室内环境描述和代码生成的逻辑精确场景,来考察模型在不同空间推理任务中的表现。人工标注的数据引入了自然语言的歧义和视角转换,而代码生成的数据则提供了逻辑上的精确性和可控性。

技术框架:SpatialText框架包含两个主要的数据来源:一是人工标注的3D室内环境描述,这些描述捕捉了真实环境中的空间关系、视角转换和功能关系;二是代码生成的逻辑精确场景,这些场景旨在探测模型在形式空间演绎和认知边界方面的能力。SpatialText通过设计一系列空间推理任务,例如视角转换、局部参考框架推理等,来评估模型在这些数据上的表现。评估指标包括准确率、召回率等。

关键创新:SpatialText的关键创新在于它是一个纯文本的、理论驱动的诊断框架,能够将空间推理与语言理解分离,并系统地评估模型是否构建了连贯、可验证的内部空间表征。与现有的基准测试相比,SpatialText更加关注模型的认知过程,而不是仅仅关注模型的输出结果。此外,SpatialText还通过结合人工标注的数据和代码生成的数据,来平衡真实性和可控性。

关键设计:SpatialText的关键设计包括:1) 使用人工标注的3D室内环境描述来引入自然语言的歧义和视角转换;2) 使用代码生成的逻辑精确场景来提供逻辑上的精确性和可控性;3) 设计一系列空间推理任务,例如视角转换、局部参考框架推理等,来评估模型在不同空间推理能力;4) 使用准确率、召回率等指标来评估模型的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的大语言模型在检索显式空间事实和在全球坐标系中操作方面表现良好,但在以自我为中心的视角转换和局部参考框架推理方面存在显著不足。这表明模型主要依赖于语言共现启发式,而非构建连贯的空间表征。

🎯 应用场景

SpatialText的研究成果可应用于提升大语言模型在机器人导航、虚拟现实、游戏AI等领域的空间理解能力。通过诊断模型的空间认知缺陷,可以指导模型架构设计和训练策略,使其更好地理解和利用空间信息,从而实现更智能、更可靠的应用。

📄 摘要(原文)

Genuine spatial reasoning relies on the capacity to construct and manipulate coherent internal spatial representations, often conceptualized as mental models, rather than merely processing surface linguistic associations. While large language models exhibit advanced capabilities across various domains, existing benchmarks fail to isolate this intrinsic spatial cognition from statistical language heuristics. Furthermore, multimodal evaluations frequently conflate genuine spatial reasoning with visual perception. To systematically investigate whether models construct flexible spatial mental models, we introduce SpatialText, a theory-driven diagnostic framework. Rather than functioning simply as a dataset, SpatialText isolates text-based spatial reasoning through a dual-source methodology. It integrates human-annotated descriptions of real 3D indoor environments, which capture natural ambiguities, perspective shifts, and functional relations, with code-generated, logically precise scenes designed to probe formal spatial deduction and epistemic boundaries. Systematic evaluation across state-of-the-art models reveals fundamental representational limitations. Although models demonstrate proficiency in retrieving explicit spatial facts and operating within global, allocentric coordinate systems, they exhibit critical failures in egocentric perspective transformation and local reference frame reasoning. These systematic errors provide strong evidence that current models rely heavily on linguistic co-occurrence heuristics rather than constructing coherent, verifiable internal spatial representations. SpatialText thus serves as a rigorous instrument for diagnosing the cognitive boundaries of artificial spatial intelligence.