A High-Fidelity Digital Twin for Robotic Manipulation Based on 3D Gaussian Splatting

📄 arXiv: 2601.03200v1 📥 PDF

作者: Ziyang Sun, Lingfan Bao, Tianhu Peng, Jingcheng Sun, Chengxu Zhou

分类: cs.RO

发布日期: 2026-01-06

备注: Under review of Journal of Robot Learning


💡 一句话要点

提出基于3D高斯溅射的机器人操作高保真数字孪生方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)

关键词: 数字孪生 机器人操作 3D高斯溅射 语义融合 几何转换 sim-to-real 运动规划

📋 核心要点

  1. 现有方法重建速度慢、视觉保真度有限,且难以将照片级真实模型转换为可用于规划的碰撞几何。
  2. 利用3D高斯溅射进行快速逼真的重建,并结合可见性感知语义融合,实现精确的3D标签和几何转换。
  3. 实验表明,该方法增强了几何精度,有效支持了真实世界机器人操作的鲁棒性。

📝 摘要(中文)

本文提出了一种实用的框架,能够在几分钟内从稀疏的RGB输入构建高质量的数字孪生。该系统采用3D高斯溅射(3DGS)作为统一的场景表示,实现快速、逼真的重建。通过引入可见性感知的语义融合来提高3D标签的准确性,并提出了一种高效的、基于滤波器的几何转换方法,以生成可用于碰撞检测的模型,无缝集成到Unity-ROS2-MoveIt物理引擎中。在Franka Emika Panda机器人执行抓取任务的实验中,证明了增强的几何精度有效地支持了真实世界试验中的鲁棒操作。结果表明,基于3DGS的数字孪生,通过语义和几何一致性的增强,为在非结构化环境中实现从感知到操作提供了一条快速、可靠和可扩展的路径。

🔬 方法详解

问题定义:论文旨在解决机器人操作中数字孪生构建的问题,现有方法在重建速度、视觉效果和碰撞检测几何生成方面存在不足,限制了sim-to-real迁移的效率和可靠性。痛点在于难以快速构建高质量、可交互且能直接用于机器人运动规划的数字孪生模型。

核心思路:论文的核心思路是利用3D高斯溅射(3DGS)技术进行快速、逼真的场景重建,并在此基础上通过语义融合和几何转换,生成可用于碰撞检测的几何模型。这样既保证了视觉效果,又解决了模型用于机器人规划的难题。

技术框架:该框架包含以下几个主要阶段:1) 使用稀疏RGB图像作为输入;2) 利用3DGS进行场景重建,生成高斯分布的集合;3) 通过可见性感知的语义融合,为3DGS表示添加语义标签;4) 使用基于滤波器的几何转换方法,将3DGS表示转换为可用于碰撞检测的几何模型;5) 将生成的数字孪生集成到Unity-ROS2-MoveIt物理引擎中,用于机器人运动规划和仿真。

关键创新:该方法最重要的创新点在于将3DGS技术应用于机器人操作的数字孪生构建,并结合语义融合和几何转换,实现了快速、高质量、可用于机器人规划的数字孪生。与传统方法相比,该方法在重建速度、视觉效果和几何精度方面都有显著提升。

关键设计:论文的关键设计包括:1) 使用可见性感知的语义融合,提高3D标签的准确性;2) 设计了一种高效的、基于滤波器的几何转换方法,将3DGS表示转换为可用于碰撞检测的几何模型;3) 将数字孪生无缝集成到Unity-ROS2-MoveIt物理引擎中,方便机器人运动规划和仿真。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够在几分钟内从稀疏RGB图像重建高质量的数字孪生。在Franka Emika Panda机器人执行抓取任务的实验中,该方法生成的数字孪生能够有效支持真实世界试验中的鲁棒操作,验证了其几何精度和实用性。具体性能数据未知,但论文强调了其在真实场景中的有效性。

🎯 应用场景

该研究成果可广泛应用于机器人操作、自动驾驶、虚拟现实等领域。通过快速构建高保真数字孪生,可以加速机器人算法的开发和测试,提高机器人在复杂环境中的适应性和鲁棒性,降低开发成本和风险。未来,该技术有望应用于智能制造、远程操作、灾难救援等场景。

📄 摘要(原文)

Developing high-fidelity, interactive digital twins is crucial for enabling closed-loop motion planning and reliable real-world robot execution, which are essential to advancing sim-to-real transfer. However, existing approaches often suffer from slow reconstruction, limited visual fidelity, and difficulties in converting photorealistic models into planning-ready collision geometry. We present a practical framework that constructs high-quality digital twins within minutes from sparse RGB inputs. Our system employs 3D Gaussian Splatting (3DGS) for fast, photorealistic reconstruction as a unified scene representation. We enhance 3DGS with visibility-aware semantic fusion for accurate 3D labelling and introduce an efficient, filter-based geometry conversion method to produce collision-ready models seamlessly integrated with a Unity-ROS2-MoveIt physics engine. In experiments with a Franka Emika Panda robot performing pick-and-place tasks, we demonstrate that this enhanced geometric accuracy effectively supports robust manipulation in real-world trials. These results demonstrate that 3DGS-based digital twins, enriched with semantic and geometric consistency, offer a fast, reliable, and scalable path from perception to manipulation in unstructured environments.