Eye, Robot: Learning to Look to Act with a BC-RL Perception-Action Loop
作者: Justin Kerr, Kush Hari, Ethan Weber, Chung Min Kim, Brent Yi, Tyler Bonnen, Ken Goldberg, Angjoo Kanazawa
分类: cs.RO, cs.CV
发布日期: 2025-06-12 (更新: 2025-09-15)
备注: CoRL 2025, project page: https://www.eyerobot.net/
💡 一句话要点
提出EyeRobot以解决机器人手眼协调问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 手眼协调 机器人系统 强化学习 视觉反馈 机械眼球
📋 核心要点
- 现有机器人系统在手眼协调方面存在不足,难以有效完成复杂的操作任务。
- 本文提出EyeRobot,通过机械眼球和BC-RL循环联合训练手部和眼部策略,提升手眼协调能力。
- 实验结果显示,EyeRobot在大工作空间内的操作任务中表现出色,能够有效利用单一摄像头进行操作。
📝 摘要(中文)
人类并非被动观察视觉世界,而是主动寻找以便采取行动。基于这一原则,本文提出了EyeRobot,一个具有自主注视行为的机器人系统,旨在完成现实世界任务。我们开发了一种机械眼球,可以自由旋转以观察周围环境,并通过强化学习训练注视策略。通过收集与360度摄像头配对的遥控演示数据,构建了一个支持任意眼球视角渲染的仿真环境。引入BC-RL循环共同训练手和眼,手部代理从渲染的眼部观察中学习,而眼部代理在手部产生正确动作预测时获得奖励。实验表明,EyeRobot在五个全景工作空间操作任务中展现了有效的手眼协调行为。
🔬 方法详解
问题定义:本文旨在解决机器人在复杂操作任务中手眼协调不足的问题。现有方法往往缺乏有效的视觉反馈机制,导致操作精度低下。
核心思路:通过引入EyeRobot系统,结合机械眼球的自由旋转能力与BC-RL循环,旨在实现手部和眼部的协同训练,以提高操作效率和准确性。
技术框架:整体架构包括数据收集、仿真环境构建、BC-RL循环训练等模块。首先收集遥控演示数据,然后在仿真环境中渲染眼球视角,最后通过BC-RL循环进行联合训练。
关键创新:最重要的创新在于BC-RL循环的引入,使得手眼协调能够通过视觉反馈进行动态调整,显著提升了机器人在复杂环境中的操作能力。
关键设计:采用了基于焦点的策略架构,允许在小计算预算下实现高分辨率视觉处理。此外,设计了特定的奖励机制,以鼓励眼部代理关注有助于手部完成任务的区域。
📊 实验亮点
实验结果表明,EyeRobot在五个全景工作空间操作任务中展现出显著的手眼协调能力,能够有效完成复杂操作。与基线方法相比,EyeRobot在任务成功率和操作精度上均有显著提升,具体性能数据尚未公开。
🎯 应用场景
EyeRobot的研究成果具有广泛的应用潜力,尤其在服务机器人、自动化生产线和医疗机器人等领域。通过提升手眼协调能力,该系统能够在复杂环境中更高效地执行任务,未来可能推动机器人技术的进一步发展与普及。
📄 摘要(原文)
Humans do not passively observe the visual world -- we actively look in order to act. Motivated by this principle, we introduce EyeRobot, a robotic system with gaze behavior that emerges from the need to complete real-world tasks. We develop a mechanical eyeball that can freely rotate to observe its surroundings and train a gaze policy to control it using reinforcement learning. We accomplish this by first collecting teleoperated demonstrations paired with a 360 camera. This data is imported into a simulation environment that supports rendering arbitrary eyeball viewpoints, allowing episode rollouts of eye gaze on top of robot demonstrations. We then introduce a BC-RL loop to train the hand and eye jointly: the hand (BC) agent is trained from rendered eye observations, and the eye (RL) agent is rewarded when the hand produces correct action predictions. In this way, hand-eye coordination emerges as the eye looks towards regions which allow the hand to complete the task. EyeRobot implements a foveal-inspired policy architecture allowing high resolution with a small compute budget, which we find also leads to the emergence of more stable fixation as well as improved ability to track objects and ignore distractors. We evaluate EyeRobot on five panoramic workspace manipulation tasks requiring manipulation in an arc surrounding the robot arm. Our experiments suggest EyeRobot exhibits hand-eye coordination behaviors which effectively facilitate manipulation over large workspaces with a single camera. See project site for videos: https://www.eyerobot.net/