Imagination at Inference: Synthesizing In-Hand Views for Robust Visuomotor Policy Inference

📄 arXiv: 2509.15717v1 📥 PDF

作者: Haoran Ding, Anqing Duan, Zezhou Sun, Dezhen Song, Yoshihiko Nakamura

分类: cs.RO

发布日期: 2025-09-19

备注: Submitted to IEEE for possible publication, under review


💡 一句话要点

提出基于扩散模型的推理期视角合成方法,提升机器人操作策略的鲁棒性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 机器人操作 视角合成 扩散模型 LoRA微调 视觉运动策略

📋 核心要点

  1. 现有机器人操作策略依赖多视角信息,但手部相机受硬件约束难以部署,导致性能下降。
  2. 提出一种推理期视角合成方法,通过微调扩散模型,从agent视角生成手部视角图像。
  3. 实验表明,合成视角显著提升策略推理性能,有效弥补了缺少手部相机造成的性能损失。

📝 摘要(中文)

本文提出了一种使机器人具备“想象”感知能力的方法,即在推理时从agent视角“想象”出手部视角观测。该方法通过新颖视角合成(NVS)实现,利用微调的扩散模型,以agent视角和手部视角相机之间的相对位姿为条件。具体而言,我们采用基于LoRA的微调方法,将预训练的NVS模型(ZeroNVS)适配到机器人操作领域。我们在仿真基准测试(RoboMimic和MimicGen)以及使用Unitree Z1机械臂进行草莓采摘任务的真实世界实验中评估了我们的方法。结果表明,合成的手部视角显著增强了策略推理,有效地弥补了因缺少真实手部相机而导致的性能下降。我们的方法为部署鲁棒的视觉运动策略提供了一种可扩展且硬件轻量级的解决方案,突出了想象视觉推理在具身智能体中的潜力。

🔬 方法详解

问题定义:论文旨在解决机器人操作中,由于硬件限制无法安装手部相机,导致视觉运动策略性能下降的问题。现有方法依赖于多视角信息,特别是手部视角,来提高操作的精确性和鲁棒性。然而,在实际应用中,手部相机的安装可能面临空间、成本和系统复杂性等挑战,从而影响策略的有效性。

核心思路:论文的核心思路是赋予机器人“想象”感知能力,即在推理阶段,通过新颖视角合成(Novel View Synthesis, NVS)技术,从已有的agent视角图像生成手部视角图像。这样,即使没有实际的手部相机,机器人也能获得类似的信息,从而提高策略的性能。这种方法的核心在于利用深度学习模型学习视角之间的转换关系。

技术框架:整体框架包含以下几个主要阶段:1) 预训练NVS模型:使用ZeroNVS作为预训练模型,该模型具有强大的视角合成能力。2) LoRA微调:使用LoRA(Low-Rank Adaptation)技术,将预训练的ZeroNVS模型微调到机器人操作领域。微调的条件是agent视角图像和agent视角与手部视角相机之间的相对位姿。3) 策略推理:在推理阶段,首先使用agent视角图像和相对位姿生成手部视角图像,然后将合成的手部视角图像输入到视觉运动策略中,进行动作规划和控制。

关键创新:论文的关键创新在于将新颖视角合成技术应用于机器人操作的推理阶段,从而在不需要实际手部相机的情况下,也能获得手部视角信息。与传统的依赖于真实传感器数据的方法相比,该方法具有更高的灵活性和可扩展性。此外,使用LoRA进行微调,可以在较小的计算资源下,将预训练模型快速适应到新的领域。

关键设计:论文的关键设计包括:1) 使用ZeroNVS作为预训练模型,因为它具有强大的视角合成能力。2) 使用LoRA进行微调,以减少计算资源的需求。3) 使用agent视角和相对位姿作为条件,生成手部视角图像。4) 在仿真和真实世界环境中进行实验,验证方法的有效性。

📊 实验亮点

实验结果表明,通过合成手部视角,策略推理性能显著提升,有效弥补了因缺少真实手部相机而导致的性能下降。在仿真环境RoboMimic和MimicGen上验证了方法的有效性。在真实世界的草莓采摘任务中,使用Unitree Z1机械臂,也取得了良好的效果,证明了该方法在实际应用中的可行性。

🎯 应用场景

该研究成果可广泛应用于机器人操作领域,尤其是在硬件受限或成本敏感的应用场景中,例如狭小空间内的精细操作、低成本机器人平台等。通过“想象”手部视角,可以提升机器人在复杂环境中的操作能力,降低对昂贵传感器的依赖,加速机器人在工业、农业、医疗等领域的部署。

📄 摘要(原文)

Visual observations from different viewpoints can significantly influence the performance of visuomotor policies in robotic manipulation. Among these, egocentric (in-hand) views often provide crucial information for precise control. However, in some applications, equipping robots with dedicated in-hand cameras may pose challenges due to hardware constraints, system complexity, and cost. In this work, we propose to endow robots with imaginative perception - enabling them to 'imagine' in-hand observations from agent views at inference time. We achieve this via novel view synthesis (NVS), leveraging a fine-tuned diffusion model conditioned on the relative pose between the agent and in-hand views cameras. Specifically, we apply LoRA-based fine-tuning to adapt a pretrained NVS model (ZeroNVS) to the robotic manipulation domain. We evaluate our approach on both simulation benchmarks (RoboMimic and MimicGen) and real-world experiments using a Unitree Z1 robotic arm for a strawberry picking task. Results show that synthesized in-hand views significantly enhance policy inference, effectively recovering the performance drop caused by the absence of real in-hand cameras. Our method offers a scalable and hardware-light solution for deploying robust visuomotor policies, highlighting the potential of imaginative visual reasoning in embodied agents.