Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

作者: Canyu Chen, Yuguang Yang, Zhewen Tan, Yizhi Wang, Ruiyi Zhan, Haiyan Liu, Xuanyao Mao, Jason Bao, Xinyue Tang, Linlin Yang, Bingchuan Sun, Yan Wang, Baochang Zhang

分类: cs.CV, cs.RO

发布日期: 2026-03-06

备注: Accepted by CVPR2026 findings

🔗 代码/项目: GITHUB

💡 一句话要点

Curious-VLA：通过探索增强，提升自动驾驶VLA模型的性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 视觉语言行为模型 模仿学习 强化学习 探索增强 可行轨迹扩展 多样性感知采样

📋 核心要点

现有VLA模型在自动驾驶中受限于窄策略，导致探索不足，限制了强化学习阶段的性能提升。
Curious-VLA通过可行轨迹扩展和自适应多样性感知采样，在模仿学习和强化学习阶段分别增强探索。
在Navsim基准测试中，Curious-VLA取得了显著的性能提升，验证了其在释放VLA模型探索潜力方面的有效性。

📝 摘要（中文）

本文指出，自动驾驶VLA模型存在一个根本性的“窄策略”限制，即模仿学习(IL)阶段容易导致探索崩溃，限制了后续强化学习(RL)阶段的潜力，使其因反馈多样性不足而过早饱和。为此，我们提出了Curious-VLA框架，通过两阶段设计缓解了探索-利用困境。在IL阶段，我们引入了可行轨迹扩展(FTE)策略，生成多个物理上有效的轨迹，并采用逐步归一化的轨迹表示来适应这些多样化的数据。在RL阶段，我们提出了自适应多样性感知采样(ADAS)，优先选择高多样性的样本，并引入跨越式驾驶奖励(SDR)，采用焦点式加权来放大奖励的价值范围，提高对驾驶质量的敏感性。在Navsim基准测试中，Curious-VLA取得了SoTA结果(PDMS 90.3, EPDMS 85.4)，以及最佳N次PDMS 94.8，证明了其在释放VLA模型探索潜力方面的有效性。

🔬 方法详解

问题定义：论文旨在解决视觉语言行为（VLA）模型在自动驾驶任务中，由于模仿学习阶段的“窄策略”问题导致的探索不足。现有方法在模仿学习后，后续的强化学习阶段难以有效探索，导致性能提升受限，无法充分利用强化学习的潜力。

核心思路：论文的核心思路是通过在模仿学习和强化学习两个阶段分别引入策略，增强模型的探索能力。在模仿学习阶段，通过生成多样化的可行轨迹来扩展训练数据；在强化学习阶段，通过优先选择多样性高的样本和调整奖励函数，引导模型进行更有效的探索。

技术框架：Curious-VLA框架包含两个主要阶段：模仿学习（IL）阶段和强化学习（RL）阶段。在IL阶段，使用可行轨迹扩展（FTE）策略生成多样化的轨迹数据，并使用逐步归一化的轨迹表示进行数据预处理。在RL阶段，使用自适应多样性感知采样（ADAS）选择样本，并使用跨越式驾驶奖励（SDR）函数进行奖励计算。

关键创新：论文的关键创新在于提出了一个两阶段的探索增强框架，分别在模仿学习和强化学习阶段解决探索不足的问题。可行轨迹扩展策略和自适应多样性感知采样策略是两个重要的技术创新点，分别用于生成多样化的训练数据和引导模型进行有效的探索。跨越式驾驶奖励函数通过调整奖励的价值范围，提高了模型对驾驶质量的敏感性。

关键设计：可行轨迹扩展（FTE）策略通过对原始轨迹进行扰动，生成多个物理上可行的轨迹。逐步归一化的轨迹表示用于适应不同长度和尺度的轨迹数据。自适应多样性感知采样（ADAS）策略使用一个多样性度量函数来评估样本的多样性，并优先选择多样性高的样本。跨越式驾驶奖励（SDR）函数使用一个焦点式加权函数来调整奖励的价值范围，提高模型对驾驶质量的敏感性。具体参数设置和网络结构细节在论文中有详细描述，此处未知。

🖼️ 关键图片

📊 实验亮点

Curious-VLA在Navsim基准测试中取得了显著的性能提升，达到了SoTA水平。具体而言，PDMS指标达到了90.3，EPDMS指标达到了85.4，最佳N次PDMS达到了94.8。这些结果表明，Curious-VLA能够有效释放VLA模型的探索潜力，显著提升自动驾驶系统的性能。

🎯 应用场景

该研究成果可应用于自动驾驶汽车、无人驾驶配送车等领域，提升自动驾驶系统的安全性和可靠性。通过增强模型的探索能力，可以使自动驾驶系统更好地适应复杂多变的交通环境，提高其在实际应用中的性能和泛化能力。该研究对于推动自动驾驶技术的商业化落地具有重要意义。

📄 摘要（原文）

We identify a fundamental Narrow Policy limitation undermining the performance of autonomous VLA models, where driving Imitation Learning (IL) tends to collapse exploration and limit the potential of subsequent Reinforcement Learning (RL) stages, which often saturate prematurely due to insufficient feedback diversity. Thereby, we propose Curious-VLA, a framework that alleviates the exploit-explore dilemma through a two-stage design. During IL, we introduce a Feasible Trajectory Expansion (FTE) strategy to generate multiple physically valid trajectories and a step-wise normalized trajectory representation to adapt this diverse data. In the RL stage, we present Adaptive Diversity-Aware Sampling (ADAS) that prioritizes high-diversity samples and introduce Spanning Driving Reward (SDR) with a focal style weighting to amplify reward's value span for improving sensitivity to driving quality. On the Navsim benchmark, Curious-VLA achieves SoTA results (PDMS 90.3, EPDMS 85.4) and a Best-of-N PDMS of 94.8, demonstrating its effectiveness in unlocking the exploratory potential of VLA models. Code: https://github.com/Mashiroln/curious_vla.git.

Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理