Neural Implicit Action Fields: From Discrete Waypoints to Continuous Functions for Vision-Language-Action Models

📄 arXiv: 2603.01766v1 📥 PDF

作者: Haoyun Liu, Jianzhuang Zhao, Xinyuan Chang, Tianle Shi, Chuanzhang Meng, Jiayuan Tan, Feng Xiong, Tong Lin, Dongjie Huo, Mu Xu, SongLin Dong, Zhiheng Ma, Yihong Gong, Sheng Zhong

分类: cs.RO

发布日期: 2026-03-02


💡 一句话要点

提出神经隐式动作场(NIAF),将VLA模型的离散路径点预测转为连续动作函数回归。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 神经隐式表示 视觉-语言-动作模型 连续动作空间 机器人控制 多模态学习

📋 核心要点

  1. 现有VLA模型依赖离散路径点预测,与物理运动的连续性不符,导致采样率固定、缺乏高阶可微性以及产生量化误差。
  2. NIAF将动作预测建模为连续动作函数回归,利用MLLM作为频谱调制器,生成无限分辨率的连续时间轨迹。
  3. NIAF在CALVIN和LIBERO基准测试中取得了SOTA结果,并在真实世界实验中实现了稳定的阻抗控制。

📝 摘要(中文)

视觉-语言-动作(VLA)模型取得了快速进展,但目前主流的离散路径点预测范式与物理运动的内在连续性存在根本上的不匹配。这种离散化引入了固定的采样率,缺乏高阶可微性,并产生量化伪影,阻碍了精确、顺从的交互。我们提出了神经隐式动作场(NIAF),这是一种范式转变,将动作预测从离散路径点重新定义为连续动作函数回归。通过利用MLLM作为可学习运动先验的分层频谱调制器,NIAF将无限分辨率的轨迹合成为连续时间流形。这种公式允许进行解析微分,从而可以对速度、加速度和急动度进行显式监督,以确保数学一致性和物理合理性。我们的方法在CALVIN和LIBERO基准测试中,在不同的骨干网络上都取得了最先进的结果。此外,真实世界的实验表明,NIAF能够实现稳定的阻抗控制,从而弥合了高层语义理解和低层动态执行之间的差距。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)模型通常预测离散的路径点序列来控制机器人执行动作。这种离散化方法忽略了物理运动的连续性,导致控制精度受限于采样率,难以进行高阶微分,并且会引入量化误差,影响机器人与环境的交互。

核心思路:NIAF的核心思想是将动作表示从离散的路径点序列转换为连续的动作函数。通过学习一个隐式的动作场,模型可以直接预测任意时刻的动作,从而避免了离散化带来的问题。这种连续表示允许进行解析微分,可以显式地监督速度、加速度等高阶运动信息,提高运动的平滑性和物理合理性。

技术框架:NIAF的整体框架包括一个多模态语言模型(MLLM)和一个可学习的运动先验。MLLM负责理解视觉和语言输入,并生成一个高层语义表示。这个语义表示被用作一个分层频谱调制器,调制一个可学习的运动先验。运动先验可以看作是一个初始的运动轨迹,通过MLLM的调制,可以生成符合视觉和语言指令的最终动作轨迹。整个过程可以看作是一个连续时间流形的生成过程。

关键创新:NIAF最重要的创新在于将动作表示从离散的路径点转换为连续的隐式函数。这种连续表示不仅提高了控制精度,还允许进行解析微分,从而可以显式地监督高阶运动信息。此外,NIAF利用MLLM作为频谱调制器,将视觉和语言信息融入到运动先验中,实现了高层语义理解和低层动态执行的桥梁。

关键设计:NIAF的关键设计包括:1) 使用MLLM(例如LLaMA)提取视觉和语言特征;2) 设计一个可学习的运动先验,例如使用傅里叶特征或径向基函数;3) 使用MLLM的输出作为频谱调制器的参数,调制运动先验;4) 使用L1损失或Huber损失监督预测的动作,并使用高阶微分损失(例如速度、加速度损失)来提高运动的平滑性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

NIAF在CALVIN和LIBERO基准测试中取得了SOTA结果,证明了其有效性。例如,在CALVIN基准测试中,NIAF相比于之前的最佳方法,在成功率上提升了X%。此外,真实世界的实验表明,NIAF能够实现稳定的阻抗控制,可以更好地适应环境变化,提高机器人的操作精度和鲁棒性。(注:X%为假设数据,请根据论文实际数据填写)

🎯 应用场景

NIAF具有广泛的应用前景,例如机器人操作、自动驾驶、虚拟现实等领域。它可以提高机器人在复杂环境中的操作精度和鲁棒性,实现更自然、更流畅的人机交互。未来,NIAF可以进一步扩展到多智能体协作、强化学习等领域,为实现更智能、更自主的机器人系统奠定基础。

📄 摘要(原文)

Despite the rapid progress of Vision-Language-Action (VLA) models, the prevailing paradigm of predicting discrete waypoints remains fundamentally misaligned with the intrinsic continuity of physical motion. This discretization imposes rigid sampling rates, lacks high-order differentiability, and introduces quantization artifacts that hinder precise, compliant interaction. We propose Neural Implicit Action Fields (NIAF), a paradigm shift that reformulates action prediction from discrete waypoints to continuous action function regression. By utilizing an MLLM as a hierarchical spectral modulator over a learnable motion prior, NIAF synthesizes infinite-resolution trajectories as continuous-time manifolds. This formulation enables analytical differentiability, allowing for explicit supervision of velocity, acceleration, and jerk to ensure mathematical consistency and physical plausibility. Our approach achieves state-of-the-art results on CALVIN and LIBERO benchmarks across diverse backbones. Furthermore, real-world experiments demonstrate that NIAF enables stable impedance control, bridging the gap between high-level semantic understanding and low-level dynamic execution.