SARM: Stage-Aware Reward Modeling for Long Horizon Robot Manipulation

📄 arXiv: 2509.25358v3 📥 PDF

作者: Qianzhong Chen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu

分类: cs.RO

发布日期: 2025-09-29 (更新: 2025-10-29)


💡 一句话要点

提出SARM:用于长时程机器人操作的阶段感知奖励建模

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人操作 奖励建模 模仿学习 长时程任务 行为克隆

📋 核心要点

  1. 现有机器人学习方法在长时程、接触密集型操作中,因演示数据质量参差不齐而面临挑战。
  2. 提出阶段感知的奖励建模框架,通过联合预测任务阶段和细粒度进度,从自然语言注释中自动生成奖励标签。
  3. 实验表明,该方法在T恤折叠任务中显著优于传统行为克隆,验证了奖励建模的有效性。

📝 摘要(中文)

大规模机器人学习在整合感知、控制和语言理解方面展现了执行复杂任务的潜力。然而,它在长时程、接触密集型操作(如可变形物体处理)中表现不佳,因为演示质量不一致。奖励建模提供了一个自然的解决方案:通过提供有实际意义的进度信号,它将嘈杂的演示转化为稳定的监督,从而推广到不同的轨迹。我们引入了一个阶段感知的、基于视频的奖励建模框架,该框架联合预测高级任务阶段和细粒度进度。奖励标签自动从自然语言子任务注释中导出,确保在可变长度的演示中一致的进度估计。这种设计克服了帧索引标签的局限性,后者在折叠T恤等可变持续时间的任务中失效。我们的奖励模型展示了对变异性的鲁棒性、对分布外设置的泛化能力以及对策略训练的强大效用。在此基础上,我们提出了奖励对齐行为克隆(RA-BC),它过滤高质量数据并通过奖励重新加权样本。实验表明,仅奖励模型在验证和真实机器人部署中优于基线。集成到RA-BC后,我们的方法在从展平状态折叠T恤时达到83%的成功率,从褶皱状态折叠T恤时达到67%的成功率——远远超过了普通行为克隆,后者仅达到8%和0%的成功率。总的来说,我们的结果强调了奖励建模是长时程操作中可扩展、注释高效和鲁棒模仿学习的关键推动因素。

🔬 方法详解

问题定义:论文旨在解决长时程机器人操作任务中,由于演示数据质量不一致导致模仿学习效果不佳的问题。现有方法,如行为克隆,直接从演示数据中学习策略,但当演示数据包含噪声或质量不高时,学习到的策略性能会受到限制,尤其是在可变形物体处理等复杂任务中。帧索引标签在可变持续时间的任务中失效。

核心思路:论文的核心思路是利用奖励建模,将嘈杂的演示数据转化为更稳定、更具泛化能力的监督信号。通过学习一个奖励函数,该函数能够评估机器人操作的进度和质量,从而为策略学习提供更可靠的指导。奖励函数的设计考虑了任务的阶段性,能够更准确地反映任务的完成情况。

技术框架:整体框架包含两个主要部分:阶段感知奖励模型和奖励对齐行为克隆(RA-BC)。阶段感知奖励模型基于视频输入,联合预测任务的阶段和细粒度进度,并输出奖励值。RA-BC利用奖励模型对演示数据进行过滤和重加权,选择高质量的样本用于行为克隆训练。整个流程包括数据收集(带自然语言子任务注释的演示),奖励模型训练,以及使用RA-BC进行策略学习。

关键创新:最重要的技术创新点在于阶段感知的奖励建模方法。与传统的奖励建模方法不同,该方法不仅预测整体进度,还显式地建模任务的阶段。这使得奖励函数能够更准确地反映任务的完成情况,并对不同阶段的进展进行区分。此外,自动从自然语言子任务注释中导出奖励标签,避免了手动标注的繁琐和不一致性。

关键设计:奖励模型采用基于视频的输入,使用卷积神经网络提取视觉特征,然后使用循环神经网络建模时间依赖性。损失函数包括阶段分类损失和进度回归损失。RA-BC使用奖励模型输出的奖励值作为样本权重,对高质量的样本赋予更高的权重,从而提高行为克隆的性能。具体参数设置和网络结构细节在论文中有详细描述,但此处未提供。

📊 实验亮点

实验结果表明,所提出的奖励模型在验证和真实机器人部署中均优于基线方法。在T恤折叠任务中,集成到RA-BC后,该方法从展平状态折叠T恤时达到83%的成功率,从褶皱状态折叠T恤时达到67%的成功率,而普通行为克隆仅达到8%和0%的成功率,性能提升显著。

🎯 应用场景

该研究成果可应用于各种长时程机器人操作任务,例如:家庭服务机器人执行家务、工业机器人进行复杂装配、医疗机器人辅助手术等。通过奖励建模,可以降低对高质量演示数据的需求,提高机器人学习的效率和鲁棒性,从而加速机器人在实际场景中的应用。

📄 摘要(原文)

Large-scale robot learning has recently shown promise for enabling robots to perform complex tasks by integrating perception, control, and language understanding. Yet, it struggles with long-horizon, contact-rich manipulation such as deformable object handling, where demonstration quality is inconsistent. Reward modeling offers a natural solution: by providing grounded progress signals, it transforms noisy demonstrations into stable supervision that generalizes across diverse trajectories. We introduce a stage-aware, video-based reward modeling framework that jointly predicts high-level task stages and fine-grained progress. Reward labels are automatically derived from natural language subtask annotations, ensuring consistent progress estimation across variable-length demonstrations. This design overcomes frame-index labeling, which fails in variable-duration tasks like folding a T-shirt. Our reward model demonstrates robustness to variability, generalization to out-of-distribution settings, and strong utility for policy training. Building on it, we propose Reward-Aligned Behavior Cloning (RA-BC), which filters high-quality data and reweights samples by reward. Experiments show the reward model alone outperforms baselines on validation and real robot rollouts. Integrated into RA-BC, our approach achieves 83% success on folding T-shirts from the flattened state and 67% from the crumpled state -- far surpassing vanilla behavior cloning, which attains only 8% and 0% success. Overall, our results highlight reward modeling as a key enabler for scalable, annotation-efficient, and robust imitation learning in long-horizon manipulation.