KERV: Kinematic-Rectified Speculative Decoding for Embodied VLA Models

作者: Zihao Zheng, Zhihao Mao, Maoliang Li, Jiayu Chen, Xinhao Sun, Zhaobo Zhang, Donggang Cao, Hong Mei, Xiang Chen

分类: cs.RO, cs.LG

发布日期: 2026-03-02

备注: This paper has been accepted by DAC 2026

💡 一句话要点

提出KERV：一种结合运动学矫正的推测解码框架，加速具身VLA模型推理。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身智能 视觉-语言-动作模型 推测解码 机器人控制 运动学 卡尔曼滤波 模型加速

📋 核心要点

VLA模型推理速度慢，推测解码(SD)虽能加速，但token错误需要重新推理，计算开销大，且接受阈值难以确定。
KERV框架结合token域VLA模型与运动学域预测，使用卡尔曼滤波器预测动作并补偿SD误差，避免重新推理。
KERV设计了基于运动学的调整策略，动态校正接受阈值，解决了阈值难以确定的问题，实验表明加速效果显著。

📝 摘要（中文）

视觉-语言-动作(VLA)模型构建了一种token域的机器人控制范式，但速度较慢。推测解码(SD)是一种可以提高推理速度的优化策略。将VLA和SD结合时会出现两个关键问题：首先，SD依赖于重新推理来解决token错误，这计算成本很高；其次，为了减少token错误，SD中的接受阈值需要仔细调整。现有工作未能有效解决上述两个问题。同时，作为人工智能和物理世界之间的桥梁，现有的具身智能忽略了机器人运动学的应用。为了解决这些问题，我们创新性地将token域VLA模型与运动学域预测相结合进行SD，提出了一种名为KERV的运动学矫正SD框架。我们采用基于运动学的卡尔曼滤波器来预测动作并补偿SD误差，避免了昂贵的重新推理。此外，我们设计了一种基于运动学的调整策略来动态校正接受阈值，解决了阈值难以确定的问题。在各种任务和环境中的实验结果表明，KERV实现了27%~37%的加速，且成功率几乎没有损失。

🔬 方法详解

问题定义：VLA模型在机器人控制中应用广泛，但其推理速度是瓶颈。推测解码(Speculative Decoding, SD)作为一种加速策略，在VLA模型中应用时面临挑战：一是SD依赖于重新推理来纠正token错误，计算成本高昂；二是SD的接受阈值需要精细调整，以平衡加速效果和错误率，而现有方法难以有效解决这些问题。

核心思路：论文的核心思路是将token域的VLA模型与运动学域的预测相结合。通过引入机器人运动学信息，利用卡尔曼滤波器预测动作，从而在推测解码过程中对token错误进行补偿，避免代价高昂的重新推理。同时，基于运动学信息动态调整接受阈值，提高推测解码的效率和准确性。

技术框架：KERV框架主要包含以下几个模块：1) VLA模型：作为基础的token生成模型；2) 基于运动学的卡尔曼滤波器：用于预测机器人动作，提供运动学域的先验信息；3) 推测解码模块：利用VLA模型和卡尔曼滤波器进行推测解码，加速推理过程；4) 阈值调整模块：基于运动学信息动态调整接受阈值，平衡加速效果和错误率。整体流程是，VLA模型生成token序列，卡尔曼滤波器预测动作，推测解码模块根据两者进行推测和验证，阈值调整模块动态调整接受阈值。

关键创新：KERV的关键创新在于将机器人运动学信息融入到推测解码过程中。传统推测解码主要依赖模型自身的重新推理来纠正错误，而KERV利用运动学先验知识，通过卡尔曼滤波器预测动作，直接对token错误进行补偿，避免了重新推理的计算开销。此外，动态调整接受阈值也是一个创新点，可以根据运动学信息自适应地调整阈值，提高解码效率。

关键设计：卡尔曼滤波器的设计是关键，需要根据具体的机器人运动学模型进行调整。损失函数的设计也需要考虑token域和运动学域的差异，例如可以采用加权损失函数，平衡两者的贡献。阈值调整策略的设计也至关重要，需要根据运动学信息和解码结果进行动态调整，例如可以采用基于运动学误差的阈值调整策略。

🖼️ 关键图片

📊 实验亮点

实验结果表明，KERV框架在多种任务和环境中均能实现显著的加速效果，加速幅度达到27%~37%，同时几乎没有造成成功率的损失。这表明KERV能够有效地提高VLA模型的推理速度，且保持了较高的控制精度，优于现有方法。

🎯 应用场景

KERV框架可广泛应用于各种需要快速响应的机器人控制任务中，例如自动驾驶、工业自动化、服务机器人等。通过提高VLA模型的推理速度，可以显著提升机器人的决策效率和实时性，使其能够更好地适应复杂多变的环境，具有重要的实际应用价值和广阔的未来发展前景。

📄 摘要（原文）

Vision-Language-Action (VLA) models build a token-domain robot control paradigm, yet suffer from low speed. Speculative Decoding (SD) is an optimization strategy that can boost inference speed. Two key issues emerge when integrating VLA and SD: first, SD relies on re-inference to address token errors, which is computationally expensive; second, to mitigate token errors, the acceptance threshold in SD requires careful adjustment. Existing works fail to address the above two issues effectively. Meanwhile, as the bridge between AI and the physical world, existing embodied intelligence has overlooked the application of robotic kinematics. To address these issues, we innovatively combine token-domain VLA models with kinematic-domain prediction for SD, proposing a kinematic-rectified SD framework named KERV. We employ a kinematics-based Kalman Filter to predict actions and compensate for SD errors, avoiding costly re-inference. Moreover, we design a kinematics-based adjustment strategy to dynamically rectify the acceptance threshold, addressing the difficulty of threshold determination. Experimental results across diverse tasks and environments demonstrate that KERV achieves 27%~37% acceleration with nearly no Success Rate loss.

KERV: Kinematic-Rectified Speculative Decoding for Embodied VLA Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理