StageACT: Stage-Conditioned Imitation for Robust Humanoid Door Opening

📄 arXiv: 2509.13200v2 📥 PDF

作者: Moonyoung Lee, Dong Ki Kim, Jai Krishna Bandi, Max Smith, Aileen Liao, Ali-akbar Agha-mohammadi, Shayegan Omidshafiei

分类: cs.RO

发布日期: 2025-09-16 (更新: 2025-09-18)

备注: 7 pages


💡 一句话要点

StageACT:基于阶段条件模仿学习的鲁棒人形机器人开门方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人形机器人 模仿学习 阶段条件 部分可观测性 长时程任务

📋 核心要点

  1. 人形机器人开门任务面临部分可观测性挑战,例如门闩状态未知,导致传统行为克隆易出现模式崩溃。
  2. StageACT通过引入阶段条件模仿学习,利用任务阶段信息增强低级策略,提高对部分可观测性的鲁棒性。
  3. 实验表明,StageACT在真实环境中显著提升了人形机器人的开门成功率和效率,并支持行为引导。

📝 摘要(中文)

人形机器人有望在无需改造的日常环境中工作。开门是机器人必备技能,因为门是建筑物中最常见的入口,限制了机器人的活动范围。然而,开门是一项具有挑战性的长时程任务,存在部分可观测性问题,例如需要推断门闩的不可观测状态,以决定是旋转把手还是推门。这种不确定性使标准行为克隆容易出现模式崩溃,产生混合或乱序的动作。我们提出了StageACT,一个阶段条件模仿学习框架,用任务阶段输入来增强低级策略。这种有效添加提高了对部分可观测性的鲁棒性,从而提高了成功率并缩短了完成时间。在真实办公环境中操作的人形机器人上,StageACT在以前未见过的门上实现了55%的成功率,是最佳基线的两倍多。此外,我们的方法支持通过阶段提示进行有意的行为指导,从而实现恢复行为。这些结果突出了阶段条件作为长时程人形机器人操作的轻量级但强大的机制。

🔬 方法详解

问题定义:人形机器人需要在部分可观测的环境中完成开门任务。现有方法,如行为克隆,在面对门闩状态未知等不确定性时,容易产生模式崩溃,导致动作序列混乱或失败。这主要是因为缺乏对任务阶段的有效建模和利用。

核心思路:StageACT的核心思路是利用任务阶段信息来调节模仿学习策略。通过将任务分解为不同的阶段(例如,接近门、握住把手、旋转把手、推门),并显式地将这些阶段作为策略的输入,机器人可以更好地理解当前的任务状态,并采取相应的动作。这种方法增强了策略对部分可观测性的鲁棒性。

技术框架:StageACT的整体框架包括一个低级策略网络和一个阶段条件模块。低级策略网络负责生成具体的机器人动作,例如关节角度或力矩。阶段条件模块接收当前的任务阶段作为输入,并将其嵌入到低级策略网络的输入中。整个训练过程采用模仿学习,即通过模仿人类专家的演示数据来训练策略网络。在推理阶段,机器人根据当前观测和任务阶段,生成相应的动作。

关键创新:StageACT的关键创新在于将任务阶段信息显式地融入到模仿学习框架中。与传统的行为克隆方法相比,StageACT能够更好地处理部分可观测性问题,并生成更鲁棒的动作序列。此外,通过阶段提示,可以实现对机器人行为的引导和纠正。

关键设计:StageACT的关键设计包括:1) 任务阶段的定义和划分;2) 阶段条件模块的网络结构和嵌入方式;3) 模仿学习的损失函数,例如L1或L2损失函数,用于衡量机器人动作与专家演示动作之间的差异。具体实现细节(如网络结构、损失函数权重等)可能需要根据具体任务进行调整。

📊 实验亮点

StageACT在真实办公环境中进行了实验,在未见过的门上实现了55%的开门成功率,是最佳基线的两倍以上。此外,该方法还支持通过阶段提示进行行为引导,允许用户在必要时纠正机器人的行为。这些结果表明,StageACT是一种有效且鲁棒的人形机器人操作方法。

🎯 应用场景

StageACT技术可应用于各种人形机器人操作任务,尤其是在需要与人类环境交互的场景中,例如家庭服务、医疗辅助、工业自动化等。该技术能够提高机器人在复杂、不确定环境中的适应性和鲁棒性,使其能够更好地完成各种任务,并最终实现人机协作。

📄 摘要(原文)

Humanoid robots promise to operate in everyday human environments without requiring modifications to the surroundings. Among the many skills needed, opening doors is essential, as doors are the most common gateways in built spaces and often limit where a robot can go. Door opening, however, poses unique challenges as it is a long-horizon task under partial observability, such as reasoning about the door's unobservable latch state that dictates whether the robot should rotate the handle or push the door. This ambiguity makes standard behavior cloning prone to mode collapse, yielding blended or out-of-sequence actions. We introduce StageACT, a stage-conditioned imitation learning framework that augments low-level policies with task-stage inputs. This effective addition increases robustness to partial observability, leading to higher success rates and shorter completion times. On a humanoid operating in a real-world office environment, StageACT achieves a 55% success rate on previously unseen doors, more than doubling the best baseline. Moreover, our method supports intentional behavior guidance through stage prompting, enabling recovery behaviors. These results highlight stage conditioning as a lightweight yet powerful mechanism for long-horizon humanoid loco-manipulation.