Towards Versatile Humanoid Table Tennis: Unified Reinforcement Learning with Prediction Augmentation

📄 arXiv: 2509.21690v2 📥 PDF

作者: Muqun Hu, Wenxi Chen, Wenjing Li, Falak Mandali, Zijian He, Renhong Zhang, Praveen Krisna, Katherine Christian, Leo Benaharon, Dizhi Ma, Karthik Ramani, Yan Gu

分类: cs.RO

发布日期: 2025-09-25 (更新: 2025-10-21)


💡 一句话要点

提出基于预测增强的统一强化学习框架,实现通用人形机器人乒乓球

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人形机器人 强化学习 乒乓球 预测增强 运动控制

📋 核心要点

  1. 人形机器人乒乓球需要快速感知、全身协调运动和敏捷步法,现有统一控制器难以同时满足这些需求。
  2. 论文提出一种基于预测增强的强化学习框架,通过预测未来球的状态来指导机器人进行主动决策。
  3. 实验表明,该方法在模拟和真实机器人上均表现出良好的性能,实现了准确快速的回球和协调的步法。

📝 摘要(中文)

本文提出了一种强化学习框架,旨在让人形机器人具备快速感知、主动全身运动和敏捷步法等能力,从而实现通用乒乓球运动。该框架直接将球的位置观测映射到全身关节指令,同时控制手臂击球和腿部移动。通过预测信号和密集的、物理引导的奖励来增强学习效果。一个轻量级的学习预测器,以最近的球位置为输入,估计未来的球状态,并增强策略的观测,从而实现主动决策。在训练过程中,一个基于物理的预测器提供精确的未来状态,以构建密集的、信息丰富的奖励,从而促进有效的探索。在模拟中,该策略在不同的发球范围内都取得了强大的性能(击球率≥96%,成功率≥92%)。消融研究证实,学习预测器和预测奖励设计对于端到端学习至关重要。该策略在具有23个旋转关节的Booster T1人形机器人上进行了零样本部署,产生了协调的横向和前后步法,以及准确、快速的回球,这表明了一条通往通用、有竞争力的人形机器人乒乓球的实用路径。

🔬 方法详解

问题定义:人形机器人打乒乓球是一个复杂的控制问题,需要机器人同时具备快速的感知能力、精确的运动控制能力和敏捷的步法。现有的方法通常难以将这些能力整合到一个统一的控制器中,导致机器人难以适应快速变化的环境和做出有效的反应。

核心思路:论文的核心思路是利用强化学习,直接将球的位置观测映射到全身关节指令,从而实现手臂击球和腿部移动的统一控制。为了提高策略的性能,论文引入了预测增强机制,即利用一个轻量级的学习预测器来估计未来的球状态,并将其作为策略的额外输入,从而使机器人能够进行主动决策。

技术框架:该框架主要包含以下几个模块:1) 强化学习策略网络,用于将球的位置观测映射到全身关节指令;2) 轻量级学习预测器,用于预测未来的球状态;3) 基于物理的预测器,用于在训练过程中提供精确的未来状态,以构建密集的奖励;4) 奖励函数,用于引导策略的学习。整体流程是,机器人首先通过感知系统获取球的位置信息,然后将该信息输入到策略网络和学习预测器中。策略网络根据当前球的位置和预测的未来球状态,输出全身关节指令。机器人执行该指令后,环境会发生变化,并产生新的球的位置信息。同时,基于物理的预测器会根据当前球的位置信息,预测未来的球状态,并用于计算奖励。

关键创新:该论文最重要的技术创新点在于引入了预测增强机制,即利用一个轻量级的学习预测器来估计未来的球状态,并将其作为策略的额外输入。这种方法可以使机器人能够进行主动决策,从而提高策略的性能。此外,论文还提出了一种基于物理的预测器,用于在训练过程中提供精确的未来状态,以构建密集的奖励,从而促进有效的探索。

关键设计:论文中,学习预测器是一个轻量级的神经网络,输入是最近的球位置,输出是未来的球状态。奖励函数的设计考虑了多个因素,包括球是否被击中、击球的质量、机器人的运动是否平稳等。强化学习算法采用的是一种off-policy的算法,例如DDPG或SAC。

📊 实验亮点

该策略在模拟环境中取得了显著的性能提升,在不同的发球范围内,击球率达到≥96%,成功率达到≥92%。更重要的是,该策略在真实的Booster T1人形机器人上进行了零样本部署,成功实现了协调的横向和前后步法,以及准确、快速的回球,验证了该方法的有效性和泛化能力。

🎯 应用场景

该研究成果可应用于人形机器人的运动控制领域,例如,可以用于开发更智能、更灵活的人形机器人,使其能够完成更复杂的任务,如体育运动、家庭服务等。此外,该研究提出的预测增强方法也可以应用于其他机器人控制问题,例如,自动驾驶、工业机器人等。

📄 摘要(原文)

Humanoid table tennis (TT) demands rapid perception, proactive whole-body motion, and agile footwork under strict timing -- capabilities that remain difficult for unified controllers. We propose a reinforcement learning framework that maps ball-position observations directly to whole-body joint commands for both arm striking and leg locomotion, strengthened by predictive signals and dense, physics-guided rewards. A lightweight learned predictor, fed with recent ball positions, estimates future ball states and augments the policy's observations for proactive decision-making. During training, a physics-based predictor supplies precise future states to construct dense, informative rewards that lead to effective exploration. The resulting policy attains strong performance across varied serve ranges (hit rate $\geq$ 96% and success rate $\geq$ 92%) in simulations. Ablation studies confirm that both the learned predictor and the predictive reward design are critical for end-to-end learning. Deployed zero-shot on a physical Booster T1 humanoid with 23 revolute joints, the policy produces coordinated lateral and forward-backward footwork with accurate, fast returns, suggesting a practical path toward versatile, competitive humanoid TT.