AnchorVLA: Anchored Diffusion for Efficient End-to-End Mobile Manipulation
作者: Jia Syuen Lim, Zhizhen Zhang, Peter Bohm, Brendan Tidd, Zi Huang, Yadan Luo
分类: cs.RO
发布日期: 2026-04-02
🔗 代码/项目: GITHUB
💡 一句话要点
AnchorVLA:用于高效端到端移动操作的锚定扩散策略
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 移动操作 扩散模型 视觉语言动作 机器人控制 多模态学习
📋 核心要点
- 移动操作需要在保持动作多样性的同时,对环境变化做出快速反应,但现有方法难以兼顾。
- AnchorVLA通过锚定扩散动作头,在合理解流形附近进行局部去噪,减少了推理成本,同时保留了多模态动作生成。
- 实验表明,AnchorVLA在多种移动操作任务中,提高了成功率和稳定性,并保持了低延迟推理。
📝 摘要(中文)
移动操作的核心挑战是在执行过程中保持多个合理的动作模型,同时保持反应性。在杂乱的场景中,通常可以通过多种有效方式接近和抓取瓶子。鲁棒的行为取决于保持这种动作多样性,同时在场景演变时保持反应性。扩散策略很有吸引力,因为它们对多模态动作分布进行建模,而不是坍缩为单一解决方案。但实际上,完整的迭代去噪在控制时成本很高。动作分块有助于分摊推理成本,但它也会产生部分开环行为,允许小的不匹配累积成漂移。我们提出了AnchorVLA,一种基于扩散的VLA策略,用于移动操作,其核心洞察力是,当采样开始于一个合理的解流形附近时,不需要大量的去噪来恢复多模态的有效动作。AnchorVLA结合了一个轻量级的VLA适应骨干网络和一个锚定扩散动作头,它使用截断的扩散计划在锚定轨迹周围局部去噪。这保留了多模态动作生成,同时降低了闭环控制的推理成本。至关重要的是,为了减轻分块引起的漂移,我们引入了一种测试时自校正机制,通过一个轻量级的残差校正模块,在rollout期间进行高频、每一步的调整。在不同的移动操作任务中,AnchorVLA提高了在扰动和分布偏移下的成功率和稳定性,同时保持了低延迟推理。源代码可在https://github.com/jason-lim26/AnchorVLA获得。
🔬 方法详解
问题定义:移动操作任务中,如何在保持对环境变化的快速响应的同时,生成并维持多个可行的动作方案?传统的扩散模型虽然能生成多模态动作,但计算成本高昂,难以满足实时性要求。动作分块虽然能降低计算量,但会引入漂移,影响控制精度。
核心思路:AnchorVLA的核心思想是,如果采样过程从一个接近可行解的流形开始,那么就不需要完全的扩散去噪过程。通过“锚定”扩散过程,即在已知的较优轨迹附近进行局部去噪,可以显著降低计算成本,同时保留多模态动作生成的优势。
技术框架:AnchorVLA包含一个轻量级的VLA(Vision-Language-Action)适应骨干网络和一个锚定扩散动作头。VLA骨干网络用于提取视觉和语言信息,并生成初始的动作轨迹(锚点)。锚定扩散动作头则在锚点轨迹附近进行局部去噪,生成更精确和多样的动作。此外,还引入了一个测试时自校正模块,用于减轻动作分块带来的漂移。
关键创新:AnchorVLA的关键创新在于锚定扩散动作头和测试时自校正机制。锚定扩散通过在局部进行去噪,显著降低了计算复杂度,使其能够应用于实时控制。测试时自校正机制则通过轻量级的残差校正模块,对每一步的动作进行调整,有效缓解了动作分块带来的漂移问题。
关键设计:AnchorVLA使用截断的扩散计划,只进行有限步数的去噪。测试时自校正模块是一个轻量级的神经网络,输入当前状态和动作,输出一个残差向量,用于修正动作。损失函数包括扩散模型的训练损失和用于训练自校正模块的模仿学习损失。
🖼️ 关键图片
📊 实验亮点
AnchorVLA在多个移动操作任务中取得了显著的性能提升。实验结果表明,AnchorVLA在成功率和稳定性方面优于现有的方法,同时保持了低延迟的推理速度。具体来说,AnchorVLA在扰动和分布偏移下的表现尤为出色,证明了其鲁棒性。
🎯 应用场景
AnchorVLA适用于各种需要实时性和鲁棒性的移动操作任务,例如家庭服务机器人、工业自动化、物流搬运等。该方法可以使机器人在复杂和动态的环境中更可靠地执行任务,例如在拥挤的厨房中抓取物体,或在生产线上进行精细装配。未来的研究可以探索将AnchorVLA应用于更复杂的任务,例如多机器人协作和人机协作。
📄 摘要(原文)
A central challenge in mobile manipulation is preserving multiple plausible action models while remaining reactive during execution. A bottle in a cluttered scene can often be approached and grasped in multiple valid ways. Robust behavior depends on preserving this action diversity while remaining reactive as the scene evolves. Diffusion policies are appealing because they model multimodal action distributions rather than collapsing to one solution. But in practice, full iterative denoising is costly at control time. Action chunking helps amortize inference, yet it also creates partially open-loop behavior, allowing small mismatches to accumulate into drift. We present AnchorVLA, a diffusion-based VLA policy for mobile manipulation built on the core insight that when sampling begins near a plausible solution manifold, extensive denoising is unnecessary to recover multimodal, valid actions. AnchorVLA combines a lightweight VLA adaptation backbone with an anchored diffusion action head, which denoises locally around anchor trajectories using a truncated diffusion schedule. This retains multimodal action generation while reducing inference cost for closed-loop control. Crucially, to mitigate chunking-induced drift, we introduce a test-time self-correction mechanism via a lightweight residual correction module that makes high-frequency, per-step adjustments during rollout. Across diverse mobile manipulation tasks, AnchorVLA improves success and stability under disturbances and distribution shifts while maintaining low-latency inference. The source code is made available at https://github.com/jason-lim26/AnchorVLA.