PROSPECT: Unified Streaming Vision-Language Navigation via Semantic--Spatial Fusion and Latent Predictive Representation

作者: Zehua Fan, Wenqi Lyu, Wenxuan Song, Linge Zhao, Yifei Yang, Xi Wang, Junjie He, Lida Huang, Haiyan Liu, Bingchuan Sun, Guangjun Bao, Xuanyao Mao, Liang Xu, Yan Wang, Feng Gao

分类: cs.CV, cs.AI

发布日期: 2026-03-04

💡 一句话要点

PROSPECT：通过语义-空间融合和潜在预测表征实现统一的流式视觉-语言导航

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言导航 多模态融合 流式处理 潜在表征学习 预测建模

📋 核心要点

现有VLN方法缺乏对环境动态和空间结构的有效预测建模，导致导航鲁棒性不足，尤其是在长时程任务中。
PROSPECT通过耦合流式VLA策略与潜在预测表征学习，利用CUT3R和SigLIP的优势，实现语义和空间信息的有效融合。
实验表明，PROSPECT在VLN-CE基准测试和真实机器人部署中均取得了SOTA性能，显著提升了长时程导航的鲁棒性。

📝 摘要（中文）

多模态大型语言模型(MLLM)推动了零样本端到端视觉-语言导航(VLN)的发展，但稳健的导航不仅需要语义理解，还需要对环境动态和空间结构进行预测建模。我们提出了PROSPECT，一个统一的流式导航代理，它将流式视觉-语言-动作(VLA)策略与潜在预测表征学习相结合。PROSPECT使用CUT3R作为流式3D基础空间编码器，以产生长上下文、绝对尺度的空间特征，并通过交叉注意力将它们与SigLIP语义特征融合。在训练期间，我们引入可学习的流式查询token，用于查询流式上下文并预测下一步的2D和3D潜在特征（而不是像素或显式模态），并在冻结的SigLIP和CUT3R教师模型的潜在空间中进行监督。预测分支塑造内部表征，而无需推理开销。在VLN-CE基准测试和真实机器人部署上的实验表明，该方法具有最先进的性能，并在不同的光照条件下提高了长时程的鲁棒性。我们将很快发布代码供社区使用。

🔬 方法详解

问题定义：现有的视觉-语言导航（VLN）方法，特别是基于多模态大语言模型（MLLM）的方法，虽然在语义理解方面取得了进展，但在预测环境动态和空间结构方面仍然存在不足。这导致在长时程导航任务中，尤其是在光照条件变化等复杂环境中，导航的鲁棒性较差。现有方法通常依赖于显式的像素或模态预测，计算开销大，且难以有效地捕捉环境的潜在结构。

核心思路：PROSPECT的核心思路是将流式视觉-语言-动作（VLA）策略与潜在预测表征学习相结合。通过使用CUT3R作为流式3D空间编码器，提取长上下文、绝对尺度的空间特征，并将其与SigLIP语义特征融合，从而实现对环境的全面理解。同时，引入潜在预测分支，在冻结的SigLIP和CUT3R教师模型的潜在空间中进行监督，从而学习环境的动态变化，提高导航的鲁棒性。这种设计避免了直接预测像素或显式模态，降低了计算开销，并能更好地捕捉环境的潜在结构。

技术框架：PROSPECT的整体架构包含以下几个主要模块：1) 流式3D空间编码器（CUT3R）：用于提取长上下文、绝对尺度的空间特征。2) 语义特征提取器（SigLIP）：用于提取语义特征。3) 语义-空间融合模块：通过交叉注意力机制将空间特征和语义特征融合。4) 流式VLA策略：根据融合后的特征和历史动作，生成下一步的动作。5) 潜在预测分支：预测下一步的2D和3D潜在特征，并在冻结的SigLIP和CUT3R教师模型的潜在空间中进行监督。

关键创新：PROSPECT最重要的技术创新点在于潜在预测表征学习。与传统的像素或显式模态预测不同，PROSPECT预测的是下一步的2D和3D潜在特征，并在冻结的教师模型的潜在空间中进行监督。这种方法可以更有效地捕捉环境的动态变化，提高导航的鲁棒性，同时避免了直接预测像素或显式模态带来的计算开销。

关键设计：PROSPECT的关键设计包括：1) 使用CUT3R作为流式3D空间编码器，以提取长上下文、绝对尺度的空间特征。2) 使用SigLIP作为语义特征提取器，以提取丰富的语义信息。3) 引入可学习的流式查询token，用于查询流式上下文并预测下一步的潜在特征。4) 在冻结的SigLIP和CUT3R教师模型的潜在空间中进行监督，以提高预测的准确性和鲁棒性。5) 预测分支只在训练阶段使用，不增加推理开销。

🖼️ 关键图片

📊 实验亮点

PROSPECT在VLN-CE基准测试中取得了SOTA性能，并在真实机器人部署中表现出优异的鲁棒性。具体而言，在不同的光照条件下，PROSPECT显著提高了长时程导航的成功率。这些实验结果表明，PROSPECT能够有效地应对复杂环境中的挑战，并为视觉-语言导航领域的研究提供了新的思路。

🎯 应用场景

PROSPECT在机器人导航、自动驾驶、虚拟现实等领域具有广泛的应用前景。它可以应用于室内服务机器人、无人机巡检、自动驾驶车辆等场景，提高机器人在复杂环境中的导航能力和鲁棒性。该研究的成果有助于推动机器人技术的进一步发展，并为人们的生活带来便利。

📄 摘要（原文）

Multimodal large language models (MLLMs) have advanced zero-shot end-to-end Vision-Language Navigation (VLN), yet robust navigation requires not only semantic understanding but also predictive modeling of environment dynamics and spatial structure. We propose PROSPECT, a unified streaming navigation agent that couples a streaming Vision-Language-Action (VLA) policy with latent predictive representation learning. PROSPECT uses CUT3R as a streaming 3D foundation spatial encoder to produce long-context, absolute-scale spatial features, and fuses them with SigLIP semantic features via cross-attention. During training, we introduce learnable stream query tokens that query the streaming context and predict next-step 2D and 3D latent features (rather than pixels or explicit modalities), supervised in the latent spaces of frozen SigLIP and CUT3R teachers. The predictive branch shapes internal representations without inference overhead. Experiments on VLN-CE benchmarks and real-robot deployment demonstrate state-of-the-art performance and improved long-horizon robustness under diverse lighting. We will release code for the community soon.

PROSPECT: Unified Streaming Vision-Language Navigation via Semantic--Spatial Fusion and Latent Predictive Representation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理