How to Peel with a Knife: Aligning Fine-Grained Manipulation with Human Preference

📄 arXiv: 2603.03280v1 📥 PDF

作者: Toru Lin, Shuying Deng, Zhao-Heng Yin, Pieter Abbeel, Jitendra Malik

分类: cs.RO, cs.AI, cs.CV, cs.LG, eess.SY

发布日期: 2026-03-03

备注: Project page can be found at https://toruowo.github.io/peel


💡 一句话要点

提出一种基于模仿学习和偏好学习的机器人削皮方法,提升精细操作性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人削皮 模仿学习 偏好学习 人机协作 精细操作

📋 核心要点

  1. 现有机器人操作任务在精细操作和隐式成功标准方面存在挑战,难以进行定量评估和奖励工程。
  2. 该论文提出一种两阶段学习框架,结合力感知模仿学习和基于人类偏好的微调,提升机器人削皮的性能。
  3. 实验结果表明,该系统在多种农产品上实现了高成功率,并具有良好的零样本泛化能力,性能提升显著。

📝 摘要(中文)

许多重要的操作任务,如食物准备、外科手术和工艺制作,对于自主机器人来说仍然难以实现。这些任务不仅具有丰富的接触和力敏感的动力学特性,而且具有“隐式”的成功标准:与抓取放置不同,这些领域的任务质量是连续且主观的(例如,土豆削皮的好坏),这使得定量评估和奖励工程变得困难。本文提出了一种针对此类任务的学习框架,以刀削皮为例。该方法采用两阶段流程:首先,通过力感知的收集数据和模仿学习来学习一个鲁棒的初始策略,从而实现跨对象变化的泛化;其次,通过基于偏好的微调来改进策略,使用学习到的奖励模型将定量任务指标与定性的人工反馈相结合,使策略行为与人类的任务质量概念对齐。仅使用50-200个削皮轨迹,该系统在黄瓜、苹果和土豆等具有挑战性的农产品上实现了超过90%的平均成功率,并且通过基于偏好的微调,性能提高了高达40%。值得注意的是,在单个农产品类别上训练的策略对未见过的同类别实例以及来自不同类别的分布外农产品表现出强大的零样本泛化能力,同时保持超过90%的成功率。

🔬 方法详解

问题定义:论文旨在解决机器人难以完成的精细操作任务,例如用刀削皮。这类任务的难点在于其成功标准是主观的、连续的,难以用明确的奖励函数进行定义,导致传统的强化学习方法难以应用。此外,不同物体的形状、大小和硬度各不相同,增加了泛化的难度。

核心思路:论文的核心思路是将模仿学习和偏好学习相结合。首先,通过模仿学习获得一个初步的、鲁棒的策略,使其能够处理不同物体的变化。然后,通过偏好学习,利用人类的反馈来微调策略,使其能够更好地符合人类对任务质量的认知。

技术框架:该方法包含两个主要阶段:1) 基于力感知的模仿学习:收集人类削皮轨迹数据,并训练一个能够根据力反馈调整动作的策略。2) 基于偏好的微调:收集人类对不同削皮结果的偏好数据,并训练一个奖励模型,该模型结合了定量任务指标(如削皮面积)和人类偏好。然后,使用强化学习算法,以该奖励模型为目标,对策略进行微调。

关键创新:该方法最重要的创新点在于将偏好学习引入到机器人操作任务中。通过利用人类的反馈,可以有效地解决任务成功标准难以定义的问题,从而使机器人能够更好地完成复杂的、主观的操作任务。此外,力感知的数据收集和模仿学习也提高了策略的鲁棒性和泛化能力。

关键设计:在模仿学习阶段,使用力/扭矩传感器来收集力反馈数据,并将力反馈作为策略的输入。在偏好学习阶段,使用Bradley-Terry模型来建模人类的偏好,并使用Bayesian Optimization来选择需要人类标注的轨迹对。奖励模型结合了定量任务指标(如削皮面积、剩余果肉厚度)和从人类偏好数据中学习到的偏好项。策略网络采用Transformer结构,能够处理时间序列数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该系统在黄瓜、苹果和土豆等农产品上实现了超过90%的平均削皮成功率。通过基于偏好的微调,性能提高了高达40%。更重要的是,在单个农产品类别上训练的策略对未见过的同类别实例以及来自不同类别的农产品表现出强大的零样本泛化能力,同时保持超过90%的成功率,表明了该方法的鲁棒性和泛化能力。

🎯 应用场景

该研究成果可应用于食品加工、医疗手术、精细制造等领域。例如,可以用于开发自动化的食品处理机器人,提高食品生产效率和质量;也可以用于辅助医生进行微创手术,提高手术精度和安全性。此外,该方法还可以推广到其他需要精细操作和主观评价的任务中,例如打磨、抛光等。

📄 摘要(原文)

Many essential manipulation tasks - such as food preparation, surgery, and craftsmanship - remain intractable for autonomous robots. These tasks are characterized not only by contact-rich, force-sensitive dynamics, but also by their "implicit" success criteria: unlike pick-and-place, task quality in these domains is continuous and subjective (e.g. how well a potato is peeled), making quantitative evaluation and reward engineering difficult. We present a learning framework for such tasks, using peeling with a knife as a representative example. Our approach follows a two-stage pipeline: first, we learn a robust initial policy via force-aware data collection and imitation learning, enabling generalization across object variations; second, we refine the policy through preference-based finetuning using a learned reward model that combines quantitative task metrics with qualitative human feedback, aligning policy behavior with human notions of task quality. Using only 50-200 peeling trajectories, our system achieves over 90% average success rates on challenging produce including cucumbers, apples, and potatoes, with performance improving by up to 40% through preference-based finetuning. Remarkably, policies trained on a single produce category exhibit strong zero-shot generalization to unseen in-category instances and to out-of-distribution produce from different categories while maintaining over 90% success rates.