$π$-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs

📄 arXiv: 2603.02083v1 📥 PDF

作者: Siting Wang, Xiaofeng Wang, Zheng Zhu, Minnan Pei, Xinyu Cui, Cheng Deng, Jian Zhao, Guan Huang, Haifeng Zhang, Jun Wang

分类: cs.RO, cs.CV

发布日期: 2026-03-02


💡 一句话要点

提出π-StepNFT,解决基于流的VLA模型在线强化学习中多步采样难题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 在线强化学习 视觉-语言-动作模型 具身控制 流模型 步进式微调 负感知学习 泛化能力

📋 核心要点

  1. 基于流的VLA模型在在线强化学习中面临多步采样似然性难以处理的挑战。
  2. π-StepNFT通过步进式负感知微调,无需评论网络和似然性,实现高效优化。
  3. 实验表明,π-StepNFT在LIBERO和ManiSkill上均表现出色,具有良好的鲁棒性和泛化能力。

📝 摘要(中文)

基于流的视觉-语言-动作(VLA)模型在具身控制方面表现出色,但在多步采样过程中存在难以处理的似然性问题,阻碍了在线强化学习的应用。我们提出了 extbf{ extit{$oldsymbolπ$-StepNFT}}(步进式负感知微调),这是一个无需评论网络和似然性的框架,每次优化步骤仅需一次前向传递,并消除了辅助价值网络。我们发现,更宽广的探索空间需要更精细的、步进式的对齐指导。实验表明,π-StepNFT在LIBERO上释放了潜在能力,具有竞争力的少样本鲁棒性。此外,它在ManiSkill上实现了卓越的泛化能力,通过防止过度拟合多模态特征,在OOD场景中优于基于价值的基线方法。这种特性为复杂的现实世界应用提供了一个可扩展的解决方案。

🔬 方法详解

问题定义:论文旨在解决基于流的视觉-语言-动作(VLA)模型在在线强化学习中遇到的多步采样问题。现有方法由于需要计算复杂的似然性,导致训练效率低下,难以应用于实际场景。此外,现有方法容易过度拟合多模态特征,泛化能力较差。

核心思路:论文的核心思路是采用步进式负感知微调(Step-wise Negative-aware Fine-Tuning),通过更精细的步进式指导来对齐探索空间。该方法无需计算似然性,避免了复杂的计算过程,提高了训练效率。同时,通过负感知机制,可以有效防止模型过度拟合多模态特征,提高泛化能力。

技术框架:π-StepNFT框架主要包含以下几个部分:首先,使用VLA模型生成动作序列;然后,通过环境交互获得奖励信号;接着,利用步进式负感知微调策略更新VLA模型参数。该框架无需额外的价值网络,简化了训练流程。

关键创新:π-StepNFT的关键创新在于提出了步进式负感知微调策略。与传统的端到端训练方法不同,该策略将多步采样过程分解为多个单步过程,并对每个步骤进行微调。同时,引入负感知机制,鼓励模型探索更广阔的动作空间,避免陷入局部最优解。

关键设计:π-StepNFT的关键设计包括:1) 步进式微调的步长选择,需要根据具体任务进行调整;2) 负感知损失函数的权重设置,需要平衡探索和利用之间的关系;3) VLA模型的选择,可以使用Transformer等常见的序列模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,π-StepNFT在LIBERO上具有竞争力的少样本鲁棒性,并且在ManiSkill上实现了卓越的泛化能力,在OOD场景中优于基于价值的基线方法。具体来说,π-StepNFT能够有效防止过度拟合多模态特征,从而在未见过的场景中表现更好。性能提升的具体数值未知,但论文强调了其优越的泛化能力。

🎯 应用场景

该研究成果可应用于机器人控制、自动驾驶、游戏AI等领域。通过提高在线强化学习的效率和泛化能力,可以使智能体更好地适应复杂多变的环境,完成各种任务。例如,可以训练机器人完成复杂的装配任务,或者训练自动驾驶系统在各种交通状况下安全行驶。

📄 摘要(原文)

Flow-based vision-language-action (VLA) models excel in embodied control but suffer from intractable likelihoods during multi-step sampling, hindering online reinforcement learning. We propose \textbf{\textit{$\boldsymbolπ$-StepNFT}} (Step-wise Negative-aware Fine-Tuning), a critic-and-likelihood-free framework that requires only a single forward pass per optimization step and eliminates auxiliary value networks. We identify that wider exploration spaces necessitate finer-grained, step-wise guidance for alignment. Empirically, $π$-StepNFT unlocks latent potential on LIBERO with competitive few-shot robustness. Moreover, it achieves superior generalization on ManiSkill, outperforming value-based baselines in OOD scenarios by preventing overfitting to multimodal features. This property offers a scalable solution promising for complex real-world applications.