$π$-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs

作者: Siting Wang, Xiaofeng Wang, Zheng Zhu, Minnan Pei, Xinyu Cui, Cheng Deng, Jian Zhao, Guan Huang, Haifeng Zhang, Jun Wang

分类: cs.RO, cs.CV

发布日期: 2026-03-02

💡 一句话要点

提出π-StepNFT，解决基于流的VLA模型在线强化学习中多步采样难题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 在线强化学习 视觉-语言-动作模型 具身控制 流模型 步进式微调 负感知学习 泛化能力

📋 核心要点

基于流的VLA模型在在线强化学习中面临多步采样似然性难以处理的挑战。
π-StepNFT通过步进式负感知微调，无需评论网络和似然性，实现高效优化。
实验表明，π-StepNFT在LIBERO和ManiSkill上均表现出色，具有良好的鲁棒性和泛化能力。

📝 摘要（中文）

基于流的视觉-语言-动作(VLA)模型在具身控制方面表现出色，但在多步采样过程中存在难以处理的似然性问题，阻碍了在线强化学习的应用。我们提出了 extbf{ extit{$oldsymbolπ$-StepNFT}}（步进式负感知微调），这是一个无需评论网络和似然性的框架，每次优化步骤仅需一次前向传递，并消除了辅助价值网络。我们发现，更宽广的探索空间需要更精细的、步进式的对齐指导。实验表明，π-StepNFT在LIBERO上释放了潜在能力，具有竞争力的少样本鲁棒性。此外，它在ManiSkill上实现了卓越的泛化能力，通过防止过度拟合多模态特征，在OOD场景中优于基于价值的基线方法。这种特性为复杂的现实世界应用提供了一个可扩展的解决方案。

🔬 方法详解

问题定义：论文旨在解决基于流的视觉-语言-动作（VLA）模型在在线强化学习中遇到的多步采样问题。现有方法由于需要计算复杂的似然性，导致训练效率低下，难以应用于实际场景。此外，现有方法容易过度拟合多模态特征，泛化能力较差。

核心思路：论文的核心思路是采用步进式负感知微调（Step-wise Negative-aware Fine-Tuning），通过更精细的步进式指导来对齐探索空间。该方法无需计算似然性，避免了复杂的计算过程，提高了训练效率。同时，通过负感知机制，可以有效防止模型过度拟合多模态特征，提高泛化能力。

技术框架：π-StepNFT框架主要包含以下几个部分：首先，使用VLA模型生成动作序列；然后，通过环境交互获得奖励信号；接着，利用步进式负感知微调策略更新VLA模型参数。该框架无需额外的价值网络，简化了训练流程。

关键创新：π-StepNFT的关键创新在于提出了步进式负感知微调策略。与传统的端到端训练方法不同，该策略将多步采样过程分解为多个单步过程，并对每个步骤进行微调。同时，引入负感知机制，鼓励模型探索更广阔的动作空间，避免陷入局部最优解。

关键设计：π-StepNFT的关键设计包括：1) 步进式微调的步长选择，需要根据具体任务进行调整；2) 负感知损失函数的权重设置，需要平衡探索和利用之间的关系；3) VLA模型的选择，可以使用Transformer等常见的序列模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，π-StepNFT在LIBERO上具有竞争力的少样本鲁棒性，并且在ManiSkill上实现了卓越的泛化能力，在OOD场景中优于基于价值的基线方法。具体来说，π-StepNFT能够有效防止过度拟合多模态特征，从而在未见过的场景中表现更好。性能提升的具体数值未知，但论文强调了其优越的泛化能力。

🎯 应用场景

该研究成果可应用于机器人控制、自动驾驶、游戏AI等领域。通过提高在线强化学习的效率和泛化能力，可以使智能体更好地适应复杂多变的环境，完成各种任务。例如，可以训练机器人完成复杂的装配任务，或者训练自动驾驶系统在各种交通状况下安全行驶。

📄 摘要（原文）

Flow-based vision-language-action (VLA) models excel in embodied control but suffer from intractable likelihoods during multi-step sampling, hindering online reinforcement learning. We propose \textbf{\textit{$\boldsymbolπ$-StepNFT}} (Step-wise Negative-aware Fine-Tuning), a critic-and-likelihood-free framework that requires only a single forward pass per optimization step and eliminates auxiliary value networks. We identify that wider exploration spaces necessitate finer-grained, step-wise guidance for alignment. Empirically, $π$-StepNFT unlocks latent potential on LIBERO with competitive few-shot robustness. Moreover, it achieves superior generalization on ManiSkill, outperforming value-based baselines in OOD scenarios by preventing overfitting to multimodal features. This property offers a scalable solution promising for complex real-world applications.

$π$-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理