Computer vision training dataset generation for robotic environments using Gaussian splatting

📄 arXiv: 2512.13411v1 📥 PDF

作者: Patryk Niżeniec, Marcin Iwanowski

分类: cs.CV, cs.GR

发布日期: 2025-12-15

备注: Code available at: https://patrykni.github.io/UnitySplat2Data/


💡 一句话要点

提出基于高斯溅射的机器人环境计算机视觉训练数据集生成流程

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 机器人视觉 数据集生成 3D高斯溅射 领域自适应 合成数据 目标检测 图像分割 物理模拟

📋 核心要点

  1. 现有合成数据与真实数据存在领域差异,且人工标注耗时,阻碍了机器人视觉模型训练。
  2. 利用3D高斯溅射生成逼真场景和物体,结合游戏引擎物理模拟和两阶段渲染技术,自动生成标注数据。
  3. 实验表明,少量真实数据与大量合成数据混合训练,可有效提升目标检测和分割性能。

📝 摘要(中文)

本文提出了一种新颖的流程,用于生成大规模、高度逼真且自动标注的机器人环境计算机视觉任务数据集。该方法旨在解决合成图像与真实图像之间的领域差距以及手动标注耗时的问题。我们利用3D高斯溅射(3DGS)创建操作环境和物体的照片级真实感表示。这些资源随后被用于游戏引擎中,通过物理模拟创建自然的场景布置。一种新颖的两阶段渲染技术将溅射的真实感与代理网格生成的阴影图相结合。该阴影图通过算法与图像合成,从而添加物理上合理的阴影和细微的高光,显著增强了真实感。像素完美的分割掩码被自动生成,并格式化为可直接用于YOLO等目标检测模型。实验表明,将少量真实图像与大量合成数据相结合的混合训练策略,能够产生最佳的检测和分割性能,证实了这是一种有效实现鲁棒和准确模型的最佳策略。

🔬 方法详解

问题定义:论文旨在解决机器人环境中计算机视觉模型训练数据集的获取问题。现有方法要么依赖于耗时耗力的人工标注真实数据,要么使用合成数据,但合成数据与真实数据之间存在显著的领域差异(domain gap),导致模型在真实场景下的性能下降。因此,如何高效、低成本地生成高质量、大规模的训练数据集是关键挑战。

核心思路:论文的核心思路是利用3D高斯溅射(3DGS)技术生成高真实度的场景和物体表示,并结合游戏引擎的物理模拟能力,自动生成具有真实感的训练数据。通过算法合成阴影和高光,进一步提升图像的真实度,从而缩小合成数据与真实数据之间的领域差距。

技术框架:该方法主要包含以下几个阶段:1) 使用3DGS创建场景和物体的逼真表示;2) 将这些表示导入游戏引擎,利用物理引擎模拟物体在场景中的自然排列;3) 使用一种两阶段渲染技术,将3DGS渲染的图像与代理网格生成的阴影图进行合成,以添加逼真的阴影和高光;4) 自动生成像素级别的分割掩码,并将其格式化为可直接用于目标检测模型(如YOLO)的格式。

关键创新:该方法最重要的创新点在于结合了3DGS的真实感渲染能力和游戏引擎的物理模拟能力,实现了一种自动化的、高真实度的训练数据生成流程。此外,两阶段渲染技术通过算法合成阴影和高光,进一步提升了图像的真实感,这是与传统合成数据生成方法的重要区别。

关键设计:两阶段渲染技术是关键设计之一。它首先使用3DGS渲染场景,然后使用代理网格生成阴影图。阴影图通过算法与3DGS渲染的图像进行合成,从而添加逼真的阴影和高光。具体合成方法和参数设置在论文中可能有所描述,但根据摘要信息,具体细节未知。此外,自动生成分割掩码的具体算法也未知。

📊 实验亮点

实验结果表明,将少量真实图像与大量合成数据相结合的混合训练策略,能够产生最佳的检测和分割性能。具体性能数据和对比基线未知,但该混合训练策略被证实是一种有效实现鲁棒和准确模型的最佳策略。

🎯 应用场景

该研究成果可广泛应用于机器人视觉领域,例如机器人抓取、导航、物体识别等。通过自动生成高质量的训练数据,可以降低模型训练的成本和时间,提高模型在真实环境中的鲁棒性和准确性。未来,该方法可以扩展到更复杂的场景和任务,例如自动驾驶、增强现实等。

📄 摘要(原文)

This paper introduces a novel pipeline for generating large-scale, highly realistic, and automatically labeled datasets for computer vision tasks in robotic environments. Our approach addresses the critical challenges of the domain gap between synthetic and real-world imagery and the time-consuming bottleneck of manual annotation. We leverage 3D Gaussian Splatting (3DGS) to create photorealistic representations of the operational environment and objects. These assets are then used in a game engine where physics simulations create natural arrangements. A novel, two-pass rendering technique combines the realism of splats with a shadow map generated from proxy meshes. This map is then algorithmically composited with the image to add both physically plausible shadows and subtle highlights, significantly enhancing realism. Pixel-perfect segmentation masks are generated automatically and formatted for direct use with object detection models like YOLO. Our experiments show that a hybrid training strategy, combining a small set of real images with a large volume of our synthetic data, yields the best detection and segmentation performance, confirming this as an optimal strategy for efficiently achieving robust and accurate models.