Do You Know Where Your Camera Is? View-Invariant Policy Learning with Camera Conditioning

📄 arXiv: 2510.02268v1 📥 PDF

作者: Tianchong Jiang, Jingtian Ji, Xiangshan Tan, Jiading Fang, Anand Bhattad, Vitor Guizilini, Matthew R. Walter

分类: cs.RO, cs.CV

发布日期: 2025-10-02

备注: Code and project materials are available at ripl.github.io/know_your_camera

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出相机条件View-Invariant策略学习,提升机器人操作任务中视角泛化能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 模仿学习 视角不变性 相机外参 机器人操作 行为克隆

📋 核心要点

  1. 现有模仿学习方法在视角变化时泛化能力差,易受背景线索干扰,导致策略失效。
  2. 论文提出相机条件View-Invariant策略学习,显式地将策略与相机外参关联,提升视角泛化能力。
  3. 实验表明,该方法在RoboSuite和ManiSkill的六个操作任务中,显著提升了策略在不同视角下的鲁棒性。

📝 摘要(中文)

本文研究了通过显式地将策略与相机外参关联来实现视角不变的模仿学习。通过使用逐像素射线的Plucker嵌入,我们证明了以外参为条件可以显著提高标准行为克隆策略(包括ACT、Diffusion Policy和SmolVLA)在不同视角下的泛化能力。为了评估策略在真实视角变化下的鲁棒性,我们在RoboSuite和ManiSkill中引入了六个操作任务,这些任务将“固定”和“随机”场景变体配对,从而将背景线索与相机姿态分离。我们的分析表明,没有外参的策略通常会利用固定场景中静态背景的视觉线索来推断相机姿态;当工作空间几何或相机位置发生变化时,这种捷径就会失效。以外参为条件可以恢复性能,并产生无需深度信息的鲁棒RGB控制。我们发布了任务、演示和代码。

🔬 方法详解

问题定义:现有模仿学习方法在机器人操作任务中,当视角发生变化时,策略的泛化能力会显著下降。许多策略依赖于静态背景的视觉线索来推断相机姿态,这使得策略在新的场景或相机配置下表现不佳。因此,如何使策略能够适应不同的视角,实现视角不变的控制,是一个重要的挑战。

核心思路:论文的核心思路是显式地将策略与相机外参(即相机的位置和姿态)关联起来。通过将相机外参作为策略的输入,策略可以更好地理解当前视角,从而做出更准确的决策。这种方法避免了策略依赖于静态背景的视觉线索来推断相机姿态,从而提高了策略的鲁棒性和泛化能力。

技术框架:整体框架包括一个模仿学习的训练过程,其中策略网络以RGB图像和相机外参作为输入,输出动作。相机外参使用Plucker嵌入进行编码,以表示逐像素射线的方向。策略网络可以是任何标准的行为克隆策略,例如ACT、Diffusion Policy或SmolVLA。在训练过程中,策略网络通过模仿专家演示来学习如何根据当前视角和场景状态执行任务。

关键创新:最重要的技术创新点是显式地将相机外参作为策略的输入。与传统的模仿学习方法相比,该方法不需要策略自己去推断相机姿态,而是直接提供相机姿态信息。这使得策略可以更好地理解当前视角,从而做出更准确的决策。此外,使用Plucker嵌入来编码相机外参,可以有效地表示逐像素射线的方向,从而提高策略的性能。

关键设计:论文使用了Plucker嵌入来表示相机外参。具体来说,对于每个像素,计算从相机中心到该像素的射线的方向向量,然后使用Plucker坐标来表示该射线。Plucker坐标是一种六维向量,可以唯一地表示一条三维空间中的直线。使用Plucker嵌入可以有效地表示逐像素射线的方向,从而提高策略的性能。此外,论文还设计了一系列新的操作任务,这些任务将“固定”和“随机”场景变体配对,从而将背景线索与相机姿态分离。这使得可以更准确地评估策略在不同视角下的鲁棒性。

📊 实验亮点

实验结果表明,通过将相机外参作为策略的输入,可以显著提高策略在不同视角下的鲁棒性和泛化能力。例如,在RoboSuite和ManiSkill的六个操作任务中,使用相机条件View-Invariant策略学习的方法,相比于没有外参的策略,性能提升了显著的百分比(具体数据未在摘要中给出,此处应补充论文中的具体数据)。此外,实验还表明,该方法可以产生无需深度信息的鲁棒RGB控制。

🎯 应用场景

该研究成果可应用于各种需要机器人操作的场景,例如工业自动化、家庭服务、医疗辅助等。通过提高机器人策略在不同视角下的鲁棒性和泛化能力,可以使机器人更好地适应复杂多变的环境,从而完成各种任务。此外,该方法还可以用于训练虚拟环境中的机器人策略,然后将其迁移到真实世界中,从而降低机器人开发的成本和风险。

📄 摘要(原文)

We study view-invariant imitation learning by explicitly conditioning policies on camera extrinsics. Using Plucker embeddings of per-pixel rays, we show that conditioning on extrinsics significantly improves generalization across viewpoints for standard behavior cloning policies, including ACT, Diffusion Policy, and SmolVLA. To evaluate policy robustness under realistic viewpoint shifts, we introduce six manipulation tasks in RoboSuite and ManiSkill that pair "fixed" and "randomized" scene variants, decoupling background cues from camera pose. Our analysis reveals that policies without extrinsics often infer camera pose using visual cues from static backgrounds in fixed scenes; this shortcut collapses when workspace geometry or camera placement shifts. Conditioning on extrinsics restores performance and yields robust RGB-only control without depth. We release the tasks, demonstrations, and code at https://ripl.github.io/know_your_camera/ .