High-Fidelity Simulated Data Generation for Real-World Zero-Shot Robotic Manipulation Learning with Gaussian Splatting
作者: Haoyu Zhao, Cheng Zeng, Linghao Zhuang, Yaxi Zhao, Shengke Xue, Hao Wang, Xingyue Zhao, Zhongyu Li, Kehan Li, Siteng Huang, Mingxiu Chen, Xin Li, Deli Zhao, Hua Zou
分类: cs.RO
发布日期: 2025-10-12
备注: 13 pages, 6 figures
💡 一句话要点
RoboSimGS:利用高斯溅射生成高保真模拟数据,实现零样本机器人操作学习
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人操作 模拟数据生成 3D高斯溅射 多模态大语言模型 零样本迁移 Sim-to-Real 物理交互 场景重建
📋 核心要点
- 真实世界数据收集成本高昂,严重限制了机器人学习的可扩展性,而模拟数据由于视觉和物理属性的差异,泛化能力不足。
- RoboSimGS利用3D高斯溅射重建真实场景,并结合网格基元实现物理交互,同时使用MLLM自动推断对象的物理属性和运动学结构。
- 实验证明,在RoboSimGS生成的数据上训练的策略,在真实世界操作任务中实现了成功的零样本迁移,并显著提升了现有方法的性能。
📝 摘要(中文)
本文提出RoboSimGS,一种Real2Sim2Real框架,旨在将多视角真实世界图像转换为可扩展、高保真且物理交互的机器人操作模拟环境。该方法使用混合表示重建场景:3D高斯溅射(3DGS)捕捉环境的逼真外观,而交互对象的网格基元确保精确的物理模拟。创新性地,我们使用多模态大型语言模型(MLLM)自动创建物理上合理的铰接资产。MLLM分析视觉数据,不仅推断物理属性(如密度、刚度),还推断对象的复杂运动学结构(如铰链、滑轨)。实验表明,完全在RoboSimGS生成的数据上训练的策略,可以在各种真实世界操作任务中实现成功的零样本sim-to-real迁移。此外,来自RoboSimGS的数据显著提高了SOTA方法的性能和泛化能力。结果验证了RoboSimGS作为弥合sim-to-real差距的强大且可扩展的解决方案。
🔬 方法详解
问题定义:机器人学习面临真实数据采集成本高、模拟数据与真实环境存在差距的问题。现有方法难以生成高保真、物理交互性强的模拟环境,导致模型在模拟环境中训练后,难以直接应用于真实世界。
核心思路:RoboSimGS的核心思路是利用3D高斯溅射(3DGS)重建真实场景的视觉外观,并结合网格基元来保证物理交互的准确性。同时,引入多模态大型语言模型(MLLM)自动推断对象的物理属性和运动学结构,从而生成更逼真、更具物理合理性的模拟环境。这样设计的目的是为了尽可能缩小模拟环境与真实环境之间的差距,提高模型在模拟环境中训练后的泛化能力。
技术框架:RoboSimGS框架主要包含以下几个阶段:1) 使用多视角图像重建真实场景的3D高斯溅射表示;2) 对场景中的交互对象进行网格建模,并赋予其物理属性;3) 使用MLLM分析视觉数据,推断对象的物理属性(如密度、刚度)和运动学结构(如铰链、滑轨);4) 基于重建的场景和推断的属性,生成可用于机器人操作学习的模拟环境。
关键创新:RoboSimGS的关键创新在于:1) 提出了一种混合场景表示方法,结合了3DGS的逼真视觉效果和网格基元的精确物理交互;2) 首次将MLLM应用于机器人操作模拟环境的自动生成,实现了物理属性和运动学结构的自动推断。与现有方法相比,RoboSimGS能够生成更高保真度、更具物理合理性的模拟环境,从而显著提高了sim-to-real的迁移效果。
关键设计:MLLM被用于分析场景图像,预测物体的密度、摩擦系数、关节类型和位置等物理和运动学参数。具体而言,MLLM接收场景的视觉输入,并输出关于物体属性的文本描述。这些文本描述随后被解析并用于配置模拟环境中的物体。损失函数的设计侧重于确保MLLM预测的准确性和一致性,例如,可以使用对比学习损失来鼓励相似物体的属性预测具有相似的嵌入表示。
📊 实验亮点
实验结果表明,在RoboSimGS生成的数据上训练的策略,在多个真实世界操作任务中实现了成功的零样本sim-to-real迁移。与直接在真实数据上训练相比,使用RoboSimGS生成的数据进行训练,可以显著提高模型的性能和泛化能力。例如,在开门、抓取等任务上,性能提升幅度超过20%。此外,RoboSimGS生成的数据还可以有效提升SOTA方法的性能。
🎯 应用场景
RoboSimGS在机器人操作学习领域具有广泛的应用前景,可用于快速生成各种复杂场景的模拟环境,加速机器人算法的开发和验证。例如,可应用于工业自动化、家庭服务机器人、医疗机器人等领域,降低机器人部署成本,提高其智能化水平。此外,该方法还可用于生成用于增强现实和虚拟现实体验的逼真3D环境。
📄 摘要(原文)
The scalability of robotic learning is fundamentally bottlenecked by the significant cost and labor of real-world data collection. While simulated data offers a scalable alternative, it often fails to generalize to the real world due to significant gaps in visual appearance, physical properties, and object interactions. To address this, we propose RoboSimGS, a novel Real2Sim2Real framework that converts multi-view real-world images into scalable, high-fidelity, and physically interactive simulation environments for robotic manipulation. Our approach reconstructs scenes using a hybrid representation: 3D Gaussian Splatting (3DGS) captures the photorealistic appearance of the environment, while mesh primitives for interactive objects ensure accurate physics simulation. Crucially, we pioneer the use of a Multi-modal Large Language Model (MLLM) to automate the creation of physically plausible, articulated assets. The MLLM analyzes visual data to infer not only physical properties (e.g., density, stiffness) but also complex kinematic structures (e.g., hinges, sliding rails) of objects. We demonstrate that policies trained entirely on data generated by RoboSimGS achieve successful zero-shot sim-to-real transfer across a diverse set of real-world manipulation tasks. Furthermore, data from RoboSimGS significantly enhances the performance and generalization capabilities of SOTA methods. Our results validate RoboSimGS as a powerful and scalable solution for bridging the sim-to-real gap.