CHOP: Counterfactual Human Preference Labels Improve Obstacle Avoidance in Visuomotor Navigation Policies

📄 arXiv: 2603.02004v1 📥 PDF

作者: Gershom Seneviratne, Jianyu An, Vaibhav Shende, Sahire Ellahy, Yaxita Amin, Kondapi Manasanjani, Samarth Chopra, Jonathan Deepak Kannan, Dinesh Manocha

分类: cs.RO

发布日期: 2026-03-02


💡 一句话要点

CHOP:利用反事实人类偏好标签提升视觉运动导航策略的避障能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 视觉运动导航 反事实学习 人类偏好 避障 具身智能 强化学习 机器人

📋 核心要点

  1. 现有视觉运动导航策略在复杂环境中避障能力不足,难以保证安全导航。
  2. CHOP方法通过引入反事实人类偏好标签,使导航策略与人类安全直觉对齐。
  3. 实验表明,CHOP显著提升了导航策略的安全性、效率和真实环境中的成功率。

📝 摘要(中文)

视觉运动导航策略在具身智能体中展现了强大的感知-动作耦合能力,但它们在复杂的真实环境中常常难以进行安全导航和动态避障。我们引入了一种名为CHOP的新方法,该方法利用反事实人类偏好标签来使视觉运动导航策略与人类对导航安全性和避障的直觉对齐。在CHOP中,对于每个视觉观察,机器人的执行轨迹被包含在一组反事实导航轨迹中:在相同条件下机器人可能遵循的替代轨迹。人类标注者根据预期结果(如碰撞风险和路径效率)提供对这些轨迹的成对偏好标签。然后,这些聚合的偏好被用于微调视觉运动导航策略,使其行为与人类在导航中的偏好对齐。在SCAND数据集上的实验表明,与预训练的基线相比,使用CHOP微调的视觉运动导航策略可减少49.7%的近碰撞事件,减少45.0%的与人类偏好轨迹的偏差,并平均提高19.8%的平均障碍物间隙。这些改进可以转移到Ghost Robotics Vision60四足机器人的真实部署中,与预训练的基线相比,CHOP对齐的策略在导航场景中平均提高24.4%的平均目标成功率,提高6.8%的最小障碍物间隙,减少45.7%的碰撞和干预事件,并提高38.6%的标准化路径完成率。我们的结果突出了反事实偏好监督在弥合大规模视觉运动策略与人类对齐的、具有安全意识的具身导航之间的差距的价值。

🔬 方法详解

问题定义:论文旨在解决视觉运动导航策略在复杂环境中避障能力不足的问题。现有方法通常依赖于大量数据训练,但难以保证策略在真实世界中的安全性和符合人类直觉。痛点在于缺乏有效的监督信号来引导策略学习更安全、更符合人类偏好的行为。

核心思路:论文的核心思路是利用反事实人类偏好标签来提供更丰富的监督信息。通过比较机器人实际执行的轨迹与在相同条件下可能采取的其他轨迹(反事实轨迹),并让人类标注者基于安全性、效率等因素对这些轨迹进行偏好排序,从而获得更细粒度的、符合人类直觉的监督信号。

技术框架:CHOP方法的技术框架主要包含以下几个阶段:1) 收集视觉观察数据和机器人执行轨迹;2) 生成反事实轨迹,即在相同视觉观察下机器人可能采取的其他轨迹;3) 让人类标注者对实际轨迹和反事实轨迹进行成对偏好标注;4) 利用聚合的人类偏好标签微调视觉运动导航策略。整体流程是通过人类反馈来引导策略学习更符合人类偏好的行为。

关键创新:最重要的技术创新点在于引入了反事实人类偏好标签。与传统的监督学习方法不同,CHOP不直接预测动作或奖励,而是学习人类对不同轨迹的偏好排序。这种方法能够更有效地捕捉人类对安全性和效率的直觉,并将其融入到导航策略中。与现有方法的本质区别在于,CHOP提供了一种更细粒度、更符合人类直觉的监督信号,从而能够更好地引导策略学习。

关键设计:在生成反事实轨迹时,论文采用了多种方法,例如随机采样、基于模型的预测等。在人类偏好标注方面,论文采用了成对比较的方式,让人类标注者选择更偏好的轨迹。在策略微调方面,论文使用了基于排序损失的优化方法,例如pairwise ranking loss,以使策略生成的轨迹更符合人类偏好。具体的损失函数和网络结构细节在论文中有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CHOP方法在SCAND数据集上显著提升了视觉运动导航策略的性能。与预训练的基线相比,近碰撞事件减少了49.7%,与人类偏好轨迹的偏差减少了45.0%,平均障碍物间隙提高了19.8%。在真实机器人上的部署也取得了显著效果,目标成功率提高了24.4%,最小障碍物间隙提高了6.8%,碰撞和干预事件减少了45.7%,标准化路径完成率提高了38.6%。

🎯 应用场景

该研究成果可应用于各种需要安全导航和避障的机器人应用场景,例如自动驾驶、无人机配送、家庭服务机器人等。通过与人类偏好对齐,可以提高机器人的安全性、可靠性和用户体验。未来,该方法可以扩展到更复杂的环境和任务中,例如人机协作、复杂地形导航等。

📄 摘要(原文)

Visuomotor navigation policies have shown strong perception-action coupling for embodied agents, yet they often struggle with safe navigation and dynamic obstacle avoidance in complex real-world environments. We introduce CHOP, a novel approach that leverages Counterfactual Human Preference Labels to align visuomotor navigation policies towards human intuition of safety and obstacle avoidance in navigation. In CHOP, for each visual observation, the robot's executed trajectory is included among a set of counterfactual navigation trajectories: alternative trajectories the robot could have followed under identical conditions. Human annotators provide pairwise preference labels over these trajectories based on anticipated outcomes such as collision risk and path efficiency. These aggregated preferences are then used to fine-tune visuomotor navigation policies, aligning their behavior with human preferences in navigation. Experiments on the SCAND dataset show that visuomotor navigation policies fine-tuned with CHOP reduce near-collision events by 49.7%, decrease deviation from human-preferred trajectories by 45.0%, and increase average obstacle clearance by 19.8% on average across multiple state-of-the-art models, compared to their pretrained baselines. These improvements transfer to real-world deployments on a Ghost Robotics Vision60 quadruped, where CHOP-aligned policies improve average goal success rates by 24.4%, increase minimum obstacle clearance by 6.8%, reduce collision and intervention events by 45.7%, and improve normalized path completion by 38.6% on average across navigation scenarios, compared to their pretrained baselines. Our results highlight the value of counterfactual preference supervision in bridging the gap between large-scale visuomotor policies and human-aligned, safety-aware embodied navigation.