AnyCamVLA: Zero-Shot Camera Adaptation for Viewpoint Robust Vision-Language-Action Models

📄 arXiv: 2603.05868v1 📥 PDF

作者: Hyeongjun Heo, Seungyeon Woo, Sang Min Kim, Junho Kim, Junho Lee, Yonghyeon Lee, Young Min Kim

分类: cs.RO

发布日期: 2026-03-06

备注: Under review, Project Page: https://heo0224.github.io/AnyCamVLA/


💡 一句话要点

AnyCamVLA:零样本相机自适应,提升VLA模型在视角变化下的鲁棒性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 机器人操作 相机自适应 新视角合成 零样本学习

📋 核心要点

  1. 现有的VLA模型在特定环境中需要微调,且对相机视角变化敏感,限制了其在非结构化环境中的应用。
  2. 该方法的核心在于利用新视角合成技术,在测试时将相机观测虚拟调整到训练时的视角,实现零样本自适应。
  3. 在LIBERO基准测试和真实机器人实验中,该方法显著提升了VLA模型在视角变化下的鲁棒性,优于数据增强等基线方法。

📝 摘要(中文)

本文提出了一种零样本相机自适应框架,旨在提升视觉-语言-动作模型(VLA)在机器人操作任务中对相机视角变化的鲁棒性。该方法无需额外演示数据、策略微调或架构修改。核心思想是在测试时虚拟调整相机观测,使其与训练时的相机配置相匹配。为此,我们利用一种前馈式新视角合成模型,该模型能够输出高质量的目标视角图像,并处理相机内外参数。这种即插即用的方法保留了VLA模型的预训练能力,并适用于任何基于RGB的策略。在LIBERO基准测试上的大量实验表明,我们的方法始终优于使用数据增强进行策略微调或使用额外3D感知特征作为视觉输入的基线方法。我们进一步验证了我们的方法在真实机器人操作场景中不断提高视角鲁棒性,包括相机外参、内参变化以及手持相机自由移动等设置。

🔬 方法详解

问题定义:现有的视觉-语言-动作模型(VLA)在机器人操作任务中表现出色,但通常需要在特定环境中进行微调。微调后的模型对相机视角的变化非常敏感,这限制了它们在非结构化环境中的部署。因此,需要解决的问题是如何使VLA模型在面对不同相机视角时保持其性能,而无需额外的训练数据或模型微调。

核心思路:本文的核心思路是利用新视角合成技术,将测试时观察到的图像转换成与训练时相机视角一致的图像。通过这种方式,VLA模型可以在其熟悉的视角下进行推理,从而提高其鲁棒性。这种方法避免了重新训练模型或收集额外数据的需要,实现了零样本的相机自适应。

技术框架:该框架主要包含两个模块:VLA模型和新视角合成模块。首先,从新的相机视角获取图像。然后,使用新视角合成模块将该图像转换成训练时相机视角的图像。最后,将转换后的图像输入到预训练的VLA模型中,得到相应的动作指令。整个过程是即插即用的,不需要修改VLA模型的结构或参数。

关键创新:该方法最重要的创新点在于实现了VLA模型的零样本相机自适应。与传统的需要额外数据或微调的方法不同,该方法利用新视角合成技术,在测试时动态地调整输入图像,使其与训练时的视角一致。这种方法不仅提高了模型的鲁棒性,还保留了预训练模型的泛化能力。

关键设计:该方法使用了一种前馈式的新视角合成模型,该模型能够处理相机内外参数的变化。该模型能够生成高质量的目标视角图像,从而保证了VLA模型的输入质量。此外,该方法没有引入任何额外的损失函数或网络结构,保持了VLA模型的简洁性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在LIBERO基准测试中显著优于基线方法,包括使用数据增强进行策略微调和使用额外3D感知特征作为视觉输入的方法。在真实机器人操作场景中,该方法也表现出强大的鲁棒性,能够适应相机外参、内参变化以及手持相机自由移动等复杂情况。实验证明,该方法能够有效提高VLA模型在视角变化下的性能。

🎯 应用场景

该研究成果可广泛应用于机器人操作领域,尤其是在非结构化环境中。例如,在家庭服务机器人、工业自动化、医疗辅助机器人等场景中,机器人需要适应不同的相机视角和光照条件。该方法可以提高机器人的自主性和适应性,使其能够更好地完成各种任务,具有重要的实际应用价值和商业潜力。

📄 摘要(原文)

Despite remarkable progress in Vision-Language-Action models (VLAs) for robot manipulation, these large pre-trained models require fine-tuning to be deployed in specific environments. These fine-tuned models are highly sensitive to camera viewpoint changes that frequently occur in unstructured environments. In this paper, we propose a zero-shot camera adaptation framework without additional demonstration data, policy fine-tuning, or architectural modification. Our key idea is to virtually adjust test-time camera observations to match the training camera configuration in real-time. For that, we use a recent feed-forward novel view synthesis model which outputs high-quality target view images, handling both extrinsic and intrinsic parameters. This plug-and-play approach preserves the pre-trained capabilities of VLAs and applies to any RGB-based policy. Through extensive experiments on the LIBERO benchmark, our method consistently outperforms baselines that use data augmentation for policy fine-tuning or additional 3D-aware features for visual input. We further validate that our approach constantly enhances viewpoint robustness in real-world robotic manipulation scenarios, including settings with varying camera extrinsics, intrinsics, and freely moving handheld cameras.