Rethinking Camera Choice: An Empirical Study on Fisheye Camera Properties in Robotic Manipulation

作者: Han Xue, Nan Min, Xiaotong Liu, Wendi Chen, Yuan Fang, Jun Lv, Cewu Lu, Chuan Wen

分类: cs.RO, cs.CV

发布日期: 2026-03-02

备注: 22 pages, 15 figures, Accecpted by CVPR 2026

💡 一句话要点

针对机器人操作，论文深入研究鱼眼相机特性，并提出提升策略。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 鱼眼相机 机器人操作 模仿学习 空间定位 场景泛化 硬件泛化 随机尺度增强

📋 核心要点

现有机器人操作中鱼眼相机的应用缺乏对其特性对策略学习影响的系统性研究。
论文通过大量实验，深入分析鱼眼相机在空间定位、场景泛化和硬件泛化方面的特性。
研究发现宽视野提升空间定位，但依赖环境复杂性；随机尺度增强能改善硬件泛化。

📝 摘要（中文）

本文针对机器人操作中鱼眼相机的应用，旨在弥补对鱼眼相机特性及其对策略学习下游影响的系统性理解不足。通过在模拟和真实环境中的大量实验，论文深入研究了三个关键问题：空间定位、场景泛化和硬件泛化。研究表明：（1）宽视野显著增强空间定位，但该优势依赖于环境的视觉复杂性。（2）鱼眼相机训练的策略在简单场景中容易过拟合，但在足够多样化的环境中训练时，能实现更优越的场景泛化。（3）直接的跨相机迁移会导致失败，根本原因是尺度过拟合，可以通过简单的随机尺度增强（RSA）策略来改善硬件泛化性能。这些发现为大规模收集和有效利用鱼眼数据集提供了具体的指导。

🔬 方法详解

问题定义：论文旨在解决机器人操作中，使用鱼眼相机进行模仿学习时，由于鱼眼相机的特殊成像特性（如大视场、畸变）而导致的策略学习效果不佳的问题。现有方法缺乏对鱼眼相机特性的系统性分析，难以指导鱼眼相机数据的有效利用，并且在跨相机迁移时性能较差。

核心思路：论文的核心思路是通过实验分析鱼眼相机在空间定位、场景泛化和硬件泛化三个关键方面的特性，从而揭示鱼眼相机数据在机器人操作中的优势和局限性。基于这些分析，论文提出相应的策略来提升鱼眼相机数据的利用效率和泛化能力。

技术框架：论文的技术框架主要包括以下几个部分：首先，构建模拟和真实环境下的机器人操作平台，并配备鱼眼相机。然后，收集鱼眼相机数据，并使用模仿学习训练机器人操作策略。接着，通过实验评估策略在空间定位、场景泛化和硬件泛化方面的性能。最后，基于实验结果，分析鱼眼相机的特性，并提出改进策略，例如随机尺度增强（RSA）。

关键创新：论文的关键创新在于：(1) 首次对鱼眼相机在机器人操作中的特性进行了全面的实验分析，揭示了其在空间定位和场景泛化方面的优势和局限性。(2) 发现了跨相机迁移失败的根本原因是尺度过拟合，并提出了简单的随机尺度增强（RSA）策略来改善硬件泛化性能。

关键设计：论文的关键设计包括：(1) 设计了多种模拟和真实环境，以评估策略在不同场景下的泛化能力。(2) 采用了模仿学习作为主要的策略学习方法，并针对鱼眼相机的特性进行了调整。(3) 提出了随机尺度增强（RSA）策略，通过在训练过程中随机改变图像的尺度，来缓解尺度过拟合问题。具体来说，RSA是在图像输入网络之前，随机缩放图像，模拟不同相机之间的尺度差异。

📊 实验亮点

实验结果表明，鱼眼相机在视觉复杂度高的环境中能显著提升空间定位能力。在场景泛化方面，使用足够多样化的数据训练的鱼眼策略优于传统相机策略。通过随机尺度增强（RSA），跨相机迁移的性能得到显著提升，缓解了尺度过拟合问题，在真实机器人上的实验验证了RSA的有效性。

🎯 应用场景

该研究成果可应用于各种需要机器人操作的场景，例如工业自动化、家庭服务、医疗辅助等。通过充分利用鱼眼相机的宽视野优势和改进的泛化能力，可以提升机器人在复杂环境中的操作效率和鲁棒性，降低对环境感知的依赖，并促进机器人技术的更广泛应用。

📄 摘要（原文）

The adoption of fisheye cameras in robotic manipulation, driven by their exceptionally wide Field of View (FoV), is rapidly outpacing a systematic understanding of their downstream effects on policy learning. This paper presents the first comprehensive empirical study to bridge this gap, rigorously analyzing the properties of wrist-mounted fisheye cameras for imitation learning. Through extensive experiments in both simulation and the real world, we investigate three critical research questions: spatial localization, scene generalization, and hardware generalization. Our investigation reveals that: (1) The wide FoV significantly enhances spatial localization, but this benefit is critically contingent on the visual complexity of the environment. (2) Fisheye-trained policies, while prone to overfitting in simple scenes, unlock superior scene generalization when trained with sufficient environmental diversity. (3) While naive cross-camera transfer leads to failures, we identify the root cause as scale overfitting and demonstrate that hardware generalization performance can be improved with a simple Random Scale Augmentation (RSA) strategy. Collectively, our findings provide concrete, actionable guidance for the large-scale collection and effective use of fisheye datasets in robotic learning. More results and videos are available on https://robo-fisheye.github.io/

Rethinking Camera Choice: An Empirical Study on Fisheye Camera Properties in Robotic Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理