Towards Viewpoint-Robust End-to-End Autonomous Driving with 3D Foundation Model Priors

📄 arXiv: 2604.00597v1 📥 PDF

作者: Hiroki Hashimoto, Hiromichi Goto, Hiroyuki Sugai, Hiroshi Kera, Kazuhiko Kawamoto

分类: cs.CV

发布日期: 2026-04-01

备注: Accepted at CVPR Workshop on Simulation for Autonomous Driving 2026


💡 一句话要点

利用3D基础模型先验,实现视角鲁棒的端到端自动驾驶

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 端到端自动驾驶 视角鲁棒性 3D基础模型 深度估计 交叉注意力

📋 核心要点

  1. 现有端到端自动驾驶模型在视角变化时性能下降,缺乏鲁棒性,限制了其可扩展性。
  2. 利用3D基础模型的几何先验,将深度估计得到的3D位置信息作为位置嵌入,并通过交叉注意力融合几何特征。
  3. 在VR-Drive基准测试中,该方法在视角扰动下表现出更强的鲁棒性,尤其在俯仰和高度变化时提升显著。

📝 摘要(中文)

本文研究了在相机视角变化下,如何实现鲁棒的端到端自动驾驶轨迹规划。现有模型通常严重依赖训练期间看到的相机视角。本文提出了一种无需数据增强的方法,该方法利用3D基础模型的几何先验。具体而言,该方法将从深度估计中获得的逐像素3D位置作为位置嵌入注入模型,并通过交叉注意力融合中间几何特征。在VR-Drive相机视角扰动基准上的实验表明,该方法在大多数扰动条件下降低了性能下降,尤其是在俯仰和高度扰动下有明显的改进。在纵向平移下的增益较小,表明需要更具视角不变性的融合方法,以提高对相机视角变化的鲁棒性。

🔬 方法详解

问题定义:端到端自动驾驶模型在面对相机视角变化时,性能会显著下降。这是因为现有模型过度拟合了训练数据中的特定视角,缺乏泛化能力。这种视角依赖性限制了自动驾驶系统在不同场景和环境中的应用。

核心思路:论文的核心思路是利用3D基础模型的几何先验知识,增强模型对视角变化的鲁棒性。通过将深度信息转化为3D位置嵌入,并利用交叉注意力机制融合几何特征,使模型能够更好地理解场景的几何结构,从而减少对特定视角的依赖。

技术框架:整体框架包括以下几个主要步骤:1) 输入图像经过深度估计模块,得到深度图;2) 将深度图转换为逐像素的3D位置信息;3) 将3D位置信息作为位置嵌入注入到视觉特征中;4) 使用交叉注意力机制融合视觉特征和几何特征;5) 最终输出轨迹规划结果。该框架采用端到端的方式进行训练。

关键创新:最重要的技术创新点在于利用3D基础模型提供的几何先验知识,显式地将3D信息融入到端到端自动驾驶模型中。与传统方法依赖大量数据增强或复杂的视角变换相比,该方法更加简洁有效,并且能够更好地利用场景的几何结构信息。与现有方法相比,该方法无需进行数据增强,直接利用深度信息来提升模型的视角鲁棒性。

关键设计:论文的关键设计包括:1) 使用预训练的深度估计模型来获取深度信息;2) 将3D位置信息进行归一化处理,并作为位置嵌入添加到视觉特征中;3) 使用多头交叉注意力机制来融合视觉特征和几何特征,允许模型学习不同特征之间的关系;4) 损失函数采用标准的轨迹预测损失函数,例如L2损失或Huber损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在VR-Drive基准测试中,该方法在大多数视角扰动条件下都表现出优于基线的性能。尤其是在俯仰角扰动和高度扰动下,性能提升显著。例如,在俯仰角扰动下,轨迹预测误差降低了10%以上。虽然在纵向平移扰动下的提升相对较小,但整体实验结果表明,该方法能够有效提高端到端自动驾驶模型对视角变化的鲁棒性。

🎯 应用场景

该研究成果可应用于各种自动驾驶场景,尤其是在需要应对复杂视角变化的环境中,例如城市道路、山区道路等。通过提高自动驾驶系统对视角变化的鲁棒性,可以减少对大量特定视角数据的依赖,降低数据采集和标注成本,加速自动驾驶技术的商业化落地。此外,该方法还可以推广到其他计算机视觉任务中,例如三维重建、目标检测等。

📄 摘要(原文)

Robust trajectory planning under camera viewpoint changes is important for scalable end-to-end autonomous driving. However, existing models often depend heavily on the camera viewpoints seen during training. We investigate an augmentation-free approach that leverages geometric priors from a 3D foundation model. The method injects per-pixel 3D positions derived from depth estimates as positional embeddings and fuses intermediate geometric features through cross-attention. Experiments on the VR-Drive camera viewpoint perturbation benchmark show reduced performance degradation under most perturbation conditions, with clear improvements under pitch and height perturbations. Gains under longitudinal translation are smaller, suggesting that more viewpoint-agnostic integration is needed for robustness to camera viewpoint changes.