SMASH: Mastering Scalable Whole-Body Skills for Humanoid Ping-Pong with Egocentric Vision

📄 arXiv: 2604.01158v1 📥 PDF

作者: Junli Ren, Yinghui Li, Kai Zhang, Penglin Fu, Haoran Jiang, Yixuan Pan, Guangjun Zeng, Tao Huang, Weizhong Guo, Peng Lu, Tianyu Li, Jingbo Wang, Li Chen, Hongyang Li, Ping Luo

分类: cs.RO

发布日期: 2026-04-01


💡 一句话要点

SMASH:基于自中心视觉的人形机器人乒乓球全身体感技能学习

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 人形机器人 乒乓球 自中心视觉 全身技能学习 运动控制 生成模型 强化学习

📋 核心要点

  1. 现有人形机器人乒乓球系统依赖外部传感器,难以实现敏捷的全身协调,限制了其在复杂环境中的应用。
  2. SMASH系统通过结合自中心视觉感知和全身技能学习,实现了无需外部传感器的敏捷乒乓球运动控制。
  3. 实验表明,SMASH系统能够在高速条件下稳定、精确地进行球交换,验证了其在动态交互任务中的有效性。

📝 摘要(中文)

现有人形机器人乒乓球系统依赖外部感知,且难以实现敏捷的全身体感协调以进行精确的任务执行。这些限制源于两个核心挑战:在快速机器人运动下实现低延迟、鲁棒的板载自中心感知;以及获得足够多样化的、任务对齐的击球动作,以学习精确而自然的全身行为。本文提出了SMASH,一个敏捷的人形机器人乒乓球模块化系统,它统一了可扩展的全身技能学习与板载自中心感知,消除了部署期间对外部摄像头的需求。我们的工作在三方面改进了现有的人形机器人乒乓球系统:实现了敏捷而精确的球互动,通过紧密协调的全身控制,而非解耦的上半身和下半身行为;通过生成模型增强和多样化击球动作,框架受益于可扩展的运动先验,并在广泛的工作空间中产生自然、鲁棒的击球行为;据我们所知,我们展示了第一个仅使用板载感知就能连续击球的人形机器人乒乓球系统,尽管面临低延迟感知、自我运动引起的不稳定性和有限视野的挑战。广泛的真实世界实验证明了高速条件下的稳定和精确的球交换,验证了动态人形机器人交互任务的可扩展的、感知驱动的全身技能学习。

🔬 方法详解

问题定义:现有人形机器人乒乓球系统主要依赖外部视觉系统,这限制了其在复杂或未知环境中的应用。同时,现有系统通常采用解耦的上半身和下半身控制策略,难以实现全身协调的敏捷运动,导致击球动作不够自然和多样化。因此,需要解决如何在仅依赖板载自中心视觉的情况下,实现人形机器人的全身协调控制,从而完成高速、精确的乒乓球击打任务。

核心思路:SMASH的核心思路是将全身技能学习与板载自中心感知相结合,通过生成模型增强和多样化击球动作,从而实现敏捷、鲁棒的乒乓球运动控制。这种方法避免了对外部传感器的依赖,并能够生成更自然、更具适应性的全身运动。

技术框架:SMASH系统主要包含以下几个模块:1) 板载自中心视觉感知模块,用于实时检测和跟踪乒乓球;2) 全身运动技能学习模块,用于学习各种击球动作;3) 运动生成模块,用于生成多样化的击球动作;4) 全身运动控制模块,用于控制机器人执行击球动作。整个流程是:自中心视觉感知模块检测到乒乓球后,运动生成模块根据当前状态生成合适的击球动作,然后全身运动控制模块控制机器人执行该动作。

关键创新:SMASH最重要的技术创新点在于其将可扩展的全身技能学习与板载自中心感知相结合,实现了无需外部传感器的敏捷乒乓球运动控制。此外,通过生成模型增强和多样化击球动作,使得系统能够生成更自然、更具适应性的全身运动。这是第一个仅使用板载感知就能连续击球的人形机器人乒乓球系统。

关键设计:运动生成模块使用生成对抗网络(GAN)来生成多样化的击球动作。GAN的生成器以当前机器人状态和乒乓球位置作为输入,生成击球动作。判别器用于区分生成的动作和真实的动作。通过对抗训练,生成器能够生成更逼真的击球动作。全身运动控制模块使用模型预测控制(MPC)来控制机器人执行击球动作。MPC能够根据当前状态和目标状态,优化机器人的运动轨迹,从而实现精确的运动控制。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SMASH系统能够在高速条件下稳定、精确地进行球交换,验证了其在动态交互任务中的有效性。该系统是首个仅使用板载感知就能连续击球的人形机器人乒乓球系统,在没有外部摄像头辅助的情况下,实现了稳定和精确的击球,证明了其在复杂环境下的鲁棒性和适应性。

🎯 应用场景

该研究成果可应用于人形机器人在复杂动态环境中的运动控制,例如家庭服务机器人、灾难救援机器人等。通过学习全身协调运动技能,机器人可以在狭小空间或未知环境中完成各种复杂任务,提高其适应性和实用性。此外,该研究也为其他需要敏捷运动控制的机器人系统提供了借鉴,例如双足行走机器人、运动辅助机器人等。

📄 摘要(原文)

Existing humanoid table tennis systems remain limited by their reliance on external sensing and their inability to achieve agile whole-body coordination for precise task execution. These limitations stem from two core challenges: achieving low-latency and robust onboard egocentric perception under fast robot motion, and obtaining sufficiently diverse task-aligned strike motions for learning precise yet natural whole-body behaviors. In this work, we present \methodname, a modular system for agile humanoid table tennis that unifies scalable whole-body skill learning with onboard egocentric perception, eliminating the need for external cameras during deployment. Our work advances prior humanoid table-tennis systems in three key aspects. First, we achieve agile and precise ball interaction with tightly coordinated whole-body control, rather than relying on decoupled upper- and lower-body behaviors. This enables the system to exhibit diverse strike motions, including explosive whole-body smashes and low crouching shots. Second, by augmenting and diversifying strike motions with a generative model, our framework benefits from scalable motion priors and produces natural, robust striking behaviors across a wide workspace. Third, to the best of our knowledge, we demonstrate the first humanoid table-tennis system capable of consecutive strikes using onboard sensing alone, despite the challenges of low-latency perception, ego-motion-induced instability, and limited field of view. Extensive real-world experiments demonstrate stable and precise ball exchanges under high-speed conditions, validating scalable, perception-driven whole-body skill learning for dynamic humanoid interaction tasks.