Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding

📄 arXiv: 2604.00528v1 📥 PDF

作者: Haibo Wang, Zihao Lin, Zhiyang Xu, Lifu Huang

分类: cs.CV, cs.AI

发布日期: 2026-04-01


💡 一句话要点

提出Think, Act, Build框架,利用VLM实现零样本3D视觉定位,无需预处理点云。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D视觉定位 视觉语言模型 零样本学习 多视图几何 RGB-D流

📋 核心要点

  1. 现有3D视觉定位方法依赖预处理点云,将定位简化为提案匹配,忽略了VLM在空间语义理解上的潜力。
  2. TAB框架将3D视觉定位解耦为2D语义理解和3D几何重建,利用VLM在2D图像中跟踪目标,再通过多视图几何重建3D结构。
  3. 通过语义锚定几何扩展机制,克服了VLM跟踪带来的多视图覆盖不足问题,并在ScanRefer和Nr3D数据集上取得了显著的性能提升。

📝 摘要(中文)

本文提出了一种名为“Think, Act, Build (TAB)”的动态代理框架,用于解决零样本3D视觉定位(3D-VG)问题。该框架将3D-VG任务重新定义为直接在原始RGB-D流上操作的生成式2D到3D重建范式。核心思想是解耦任务:利用2D视觉语言模型(VLM)解析复杂的空间语义,并依靠确定性的多视图几何来实例化3D结构。VLM代理在专门的3D-VG技能指导下,动态调用视觉工具来跟踪和重建2D帧中的目标。为了克服VLM语义跟踪带来的多视图覆盖不足,引入了语义锚定几何扩展机制,首先在参考视频片段中锚定目标,然后利用多视图几何将其空间位置传播到未观察到的帧中。通过聚合多视图特征和相机参数,代理能够“构建”目标的3D表示,直接将2D视觉线索映射到3D坐标。此外,本文还识别并手动修正了现有基准测试中的参考歧义和类别错误等缺陷。在ScanRefer和Nr3D上的大量实验表明,该框架完全依赖开源模型,显著优于以前的零样本方法,甚至超过了完全监督的基线。

🔬 方法详解

问题定义:3D视觉定位旨在通过自然语言描述在3D场景中定位物体。现有方法通常依赖于预处理的3D点云,将定位问题简化为提案匹配,无法充分利用视觉语言模型(VLM)在理解复杂空间语义方面的能力。此外,这些方法通常采用静态工作流程,缺乏动态性和交互性。

核心思路:本文的核心思路是将3D视觉定位任务解耦为两个子任务:一是利用2D VLM理解复杂的空间语义,并在2D图像中跟踪目标;二是利用确定性的多视图几何从2D图像重建3D结构。通过这种解耦,可以充分利用VLM的语义理解能力,并避免对预处理点云的依赖。

技术框架:TAB框架是一个动态的代理框架,包含以下主要模块:1) VLM代理:负责根据自然语言描述,利用视觉工具在2D图像中跟踪目标。2) 语义锚定几何扩展:用于克服VLM跟踪带来的多视图覆盖不足问题,将目标的空间位置从参考视频片段传播到未观察到的帧中。3) 3D重建模块:负责根据多视图特征和相机参数,重建目标的3D表示。整个流程可以概括为:VLM代理根据自然语言描述“思考”,然后“行动”,调用视觉工具跟踪目标,最后“构建”目标的3D表示。

关键创新:TAB框架的关键创新在于其动态代理框架和语义锚定几何扩展机制。动态代理框架允许VLM代理根据任务需求动态调用视觉工具,提高了框架的灵活性和适应性。语义锚定几何扩展机制有效地解决了VLM跟踪带来的多视图覆盖不足问题,提高了3D重建的准确性。与现有方法相比,TAB框架无需预处理点云,可以直接在原始RGB-D流上操作,更加高效和灵活。

关键设计:语义锚定几何扩展机制的关键设计在于如何选择参考视频片段和如何传播目标的空间位置。论文中采用的方法是首先选择包含清晰目标语义信息的视频片段作为参考,然后利用多视图几何中的极线约束和三角化方法,将目标的空间位置从参考视频片段传播到其他帧中。此外,论文还对现有基准测试中的错误查询进行了手动修正,提高了评估的准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TAB框架在ScanRefer和Nr3D数据集上取得了显著的性能提升。在ScanRefer数据集上,TAB框架的准确率超过了之前的零样本方法,甚至超过了完全监督的基线。在Nr3D数据集上,TAB框架也取得了类似的性能提升。这些实验结果表明,TAB框架是一种有效的零样本3D视觉定位方法。

🎯 应用场景

该研究成果可应用于机器人导航、增强现实、智能家居等领域。例如,机器人可以根据用户的自然语言指令,在3D环境中定位并抓取物体。在增强现实应用中,用户可以通过语音或文本描述,在真实场景中添加虚拟物体。此外,该技术还可以用于3D场景理解和编辑等任务,具有广泛的应用前景。

📄 摘要(原文)

3D Visual Grounding (3D-VG) aims to localize objects in 3D scenes via natural language descriptions. While recent advancements leveraging Vision-Language Models (VLMs) have explored zero-shot possibilities, they typically suffer from a static workflow relying on preprocessed 3D point clouds, essentially degrading grounding into proposal matching. To bypass this reliance, our core motivation is to decouple the task: leveraging 2D VLMs to resolve complex spatial semantics, while relying on deterministic multi-view geometry to instantiate the 3D structure. Driven by this insight, we propose "Think, Act, Build (TAB)", a dynamic agentic framework that reformulates 3D-VG tasks as a generative 2D-to-3D reconstruction paradigm operating directly on raw RGB-D streams. Specifically, guided by a specialized 3D-VG skill, our VLM agent dynamically invokes visual tools to track and reconstruct the target across 2D frames. Crucially, to overcome the multi-view coverage deficit caused by strict VLM semantic tracking, we introduce the Semantic-Anchored Geometric Expansion, a mechanism that first anchors the target in a reference video clip and then leverages multi-view geometry to propagate its spatial location across unobserved frames. This enables the agent to "Build" the target's 3D representation by aggregating these multi-view features via camera parameters, directly mapping 2D visual cues to 3D coordinates. Furthermore, to ensure rigorous assessment, we identify flaws such as reference ambiguity and category errors in existing benchmarks and manually refine the incorrect queries. Extensive experiments on ScanRefer and Nr3D demonstrate that our framework, relying entirely on open-source models, significantly outperforms previous zero-shot methods and even surpasses fully supervised baselines.