Boosting Vision-Language-Action Finetuning with Feasible Action Neighborhood Prior

📄 arXiv: 2604.01570v1 📥 PDF

作者: Haochen Niu, Kanyu Zhang, Shuyu Yin, Qinghai Guo, Peilin Liu, Fei Wen

分类: cs.RO

发布日期: 2026-04-02

备注: Accepted by CVPR 2026


💡 一句话要点

提出基于可行动作邻域先验的视觉-语言-动作微调方法,提升机器人操作泛化性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作 机器人操作 可行动作邻域 正则化 泛化能力 样本效率 强化学习 监督学习

📋 核心要点

  1. 现有视觉-语言-动作(VLA)模型训练忽略了机器人操作中动作的容错性,导致泛化能力不足。
  2. 论文提出FAN引导的正则化器,利用可行动作邻域(FAN)的几何特性,优化模型输出分布。
  3. 实验表明,该方法在强化和监督微调中均显著提升了样本效率和泛化能力,尤其是在OOD场景。

📝 摘要(中文)

在真实的机器人操作中,状态通常允许一个近似等效动作的邻域。也就是说,对于每个状态,都存在一个可行动作邻域(FAN),而不是单一的正确动作,在该邻域内的运动会产生难以区分的进展。然而,流行的VLA训练方法直接继承自语言环境,并没有利用FAN属性,从而导致泛化能力差和样本效率低。为了解决这个限制,我们引入了一个FAN引导的正则化器,它塑造模型的输出分布,使其与FAN的几何形状对齐。具体来说,我们引入了一个高斯先验,它促进围绕首选方向和幅度的局部平滑和单峰预测。在强化微调(RFT)和监督微调(SFT)的广泛实验中,我们的方法在样本效率以及分布内和分布外(OOD)场景中的成功率方面都取得了显著的提高。通过与物理操作的内在动作容差对齐,FAN引导的正则化为样本高效且可泛化的VLA自适应提供了一种原则性和实用的方法。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)模型在机器人操作任务中,通常将动作空间视为离散的、单一正确的动作,忽略了实际操作中动作的容错性。即在某个状态下,存在一个可行动作邻域(FAN),邻域内的动作都能达到相似的效果。这种忽略导致模型训练时对噪声敏感,泛化能力差,样本效率低。

核心思路:论文的核心思路是利用可行动作邻域(FAN)的几何特性,通过正则化方法引导模型学习更鲁棒的动作表示。具体来说,通过引入一个高斯先验,鼓励模型在首选动作附近预测平滑且单峰的动作分布,从而模拟实际操作中的动作容错性。

技术框架:该方法主要通过在现有的VLA模型微调过程中添加一个FAN引导的正则化项来实现。整体流程如下:1. 使用现有的VLA模型作为初始化;2. 在微调阶段,除了原有的损失函数外,增加一个基于高斯先验的正则化项,该正则化项鼓励模型预测的动作分布在可行动作邻域内平滑且单峰;3. 使用优化算法(如Adam)更新模型参数。

关键创新:该方法最重要的创新点在于将机器人操作中的动作容错性建模为可行动作邻域(FAN),并设计了相应的正则化方法。与现有方法相比,该方法不再假设动作空间是离散的、单一正确的,而是考虑了动作的连续性和容错性,从而提高了模型的泛化能力和样本效率。

关键设计:关键设计包括:1. 高斯先验的参数设置:需要根据具体的动作空间和任务特点设置高斯分布的均值和方差,以控制可行动作邻域的大小和形状;2. 正则化系数的选择:需要平衡原有损失函数和正则化项之间的权重,以避免过度正则化或欠正则化;3. 损失函数的设计:除了高斯先验正则化项外,还需要根据具体的微调任务选择合适的损失函数,如交叉熵损失或均方误差损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在强化微调(RFT)和监督微调(SFT)中均取得了显著的提升。在分布内和分布外(OOD)场景中,该方法都提高了样本效率和成功率。例如,在某个具体的机器人操作任务中,使用该方法可以将成功率提高10%-20%,同时减少50%以上的训练样本。

🎯 应用场景

该研究成果可应用于各种机器人操作任务,例如物体抓取、放置、装配等。通过提高VLA模型的泛化能力和样本效率,可以降低机器人部署和训练的成本,使其能够更好地适应复杂和动态的现实环境。此外,该方法还可以扩展到其他需要考虑动作容错性的控制任务中。

📄 摘要(原文)

In real-world robotic manipulation, states typically admit a neighborhood of near-equivalent actions. That is, for each state, there exist a feasible action neighborhood (FAN) rather than a single correct action, within which motions yield indistinguishable progress. However, prevalent VLA training methodologies are directly inherited from linguistic settings and do not exploit the FAN property, thus leading to poor generalization and low sample efficiency. To address this limitation, we introduce a FAN-guided regularizer that shapes the model's output distribution to align with the geometry of FAN. Concretely, we introduce a Gaussian prior that promotes locally smooth and unimodal predictions around the preferred direction and magnitude. In extensive experiments across both reinforced finetuning (RFT) and supervised finetuning (SFT), our method achieves significant improvement in sample efficiency, and success rate in both in-distribution and out-of-distribution (OOD) scenarios. By aligning with the intrinsic action tolerance of physical manipulation, FAN-guided regularization provides a principled and practical method for sample-efficient, and generalizable VLA adaptation.