SuperSuit: An Isomorphic Bimodal Interface for Scalable Mobile Manipulation

作者: Tongqing Chen, Hang Wu, Jiasen Wang, Xiaotao Li, Zhu Jin, Lu Fang

分类: cs.RO

发布日期: 2026-03-06

💡 一句话要点

SuperSuit：一种用于可扩展移动操作的同构双模态接口

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 移动操作 双模态接口 遥操作 主动示教 数据采集 具身智能 机器人学习

📋 核心要点

移动操作机器人需要在运动和操作之间协调，现有遥操作和可穿戴接口难以满足长时程、高质量数据采集的需求。
SuperSuit提出一种双模态数据采集框架，通过共享运动学接口，支持机器人环路遥操作和主动示教，实现数据直接混合。
实验表明，SuperSuit主动模式示教吞吐量提升2.6倍，且在数据量增加时，策略性能单调提升，验证了其可扩展性。

📝 摘要（中文）

高质量、长时程的示教数据对于具身智能至关重要，但对于紧耦合的轮式移动操作机器人来说，获取此类数据仍然是一个根本性的瓶颈。与固定基座系统不同，移动操作机器人需要在$SE(2)$运动和精确操作之间进行连续协调，这暴露了现有遥操作和可穿戴接口的局限性。我们提出了 extbf{SuperSuit}，一个双模态数据采集框架，它在共享的运动学接口下支持机器人环路遥操作和主动示教。两种模式都产生结构相同的关节空间轨迹，从而无需修改下游策略即可直接混合数据。对于运动，SuperSuit将自然的人类步进映射到连续的平面基座速度，消除了离散的命令切换。对于操作，它在两种模式下都采用严格同构的可穿戴手臂，同时策略训练采用移位不变的delta-joint表示，以减轻校准偏移和结构顺应性，而无需逆运动学。在长时程移动操作任务上的真实世界实验表明，主动模式下的示教吞吐量比遥操作基线高2.6倍，在固定数据集大小下，用主动示教数据代替遥操作数据时，策略性能相当，并且随着主动数据量的增加，性能单调提高。这些结果表明，跨收集模式的一致运动学表示能够实现长时程移动操作的可扩展数据采集。

🔬 方法详解

问题定义：论文旨在解决移动操作机器人长时程、高质量示教数据难以获取的问题。现有遥操作方法操作复杂，效率低；可穿戴接口在移动操作的运动协调方面存在局限性，且数据异构，难以直接混合使用。

核心思路：论文的核心思路是设计一个双模态的数据采集框架SuperSuit，该框架通过共享的运动学接口，使得遥操作和主动示教两种模式产生结构相同的关节空间轨迹，从而实现数据的无缝融合和高效利用。同时，采用移位不变的delta-joint表示，减轻校准偏移和结构顺应性带来的影响。

技术框架：SuperSuit框架包含两个主要的数据采集模态：机器人环路遥操作和主动示教。在遥操作模式下，操作者通过可穿戴手臂控制机器人的操作臂，并通过自然步进控制机器人的底盘运动。在主动示教模式下，操作者直接引导机器人完成任务。两种模式的数据都以关节空间轨迹的形式记录，并用于训练下游策略。

关键创新：SuperSuit的关键创新在于其双模态数据采集框架和共享的运动学接口。该框架允许用户根据任务的难易程度选择合适的采集模式，从而提高了数据采集的效率和质量。共享的运动学接口保证了两种模式下数据的结构一致性，使得数据可以直接混合使用，避免了数据转换和对齐的复杂性。此外，采用移位不变的delta-joint表示，增强了策略的鲁棒性。

关键设计：SuperSuit在运动控制方面，将人类步进映射到连续的平面基座速度，避免了离散命令切换带来的不便。在操作控制方面，采用严格同构的可穿戴手臂，保证了两种模式下操作臂控制的一致性。策略训练采用delta-joint表示，并结合强化学习算法进行优化。具体的参数设置和网络结构在论文中未详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SuperSuit在主动模式下的示教吞吐量比遥操作基线高2.6倍。在固定数据集大小下，用主动示教数据代替遥操作数据时，策略性能相当。随着主动数据量的增加，策略性能单调提高，验证了SuperSuit的可扩展性。这些结果表明，SuperSuit能够显著提高移动操作机器人的数据采集效率和策略性能。

🎯 应用场景

SuperSuit可应用于各种需要移动操作机器人的场景，例如仓库物流、家庭服务、灾难救援等。通过高效的数据采集和策略训练，可以使移动操作机器人更好地适应复杂环境，完成各种任务，提高工作效率和安全性。该研究为移动操作机器人的智能化发展奠定了基础。

📄 摘要（原文）

High-quality, long-horizon demonstrations are essential for embodied AI, yet acquiring such data for tightly coupled wheeled mobile manipulators remains a fundamental bottleneck. Unlike fixed-base systems, mobile manipulators require continuous coordination between $SE(2)$ locomotion and precise manipulation, exposing limitations in existing teleoperation and wearable interfaces. We present \textbf{SuperSuit}, a bimodal data acquisition framework that supports both robot-in-the-loop teleoperation and active demonstration under a shared kinematic interface. Both modalities produce structurally identical joint-space trajectories, enabling direct data mixing without modifying downstream policies. For locomotion, SuperSuit maps natural human stepping to continuous planar base velocities, eliminating discrete command switches. For manipulation, it employs a strictly isomorphic wearable arm in both modes, while policy training is formulated in a shift-invariant delta-joint representation to mitigate calibration offsets and structural compliance without inverse kinematics. Real-world experiments on long-horizon mobile manipulation tasks show 2.6$\times$ higher demonstration throughput in active mode compared to a teleoperation baseline, comparable policy performance when substituting teleoperation data with active demonstrations at fixed dataset size, and monotonic performance improvement as active data volume increases. These results indicate that consistent kinematic representations across collection modalities enable scalable data acquisition for long-horizon mobile manipulation.

SuperSuit: An Isomorphic Bimodal Interface for Scalable Mobile Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理