3DGS-Avatar: Animatable Avatars via Deformable 3D Gaussian Splatting
作者: Zhiyin Qian, Shaofei Wang, Marko Mihajlovic, Andreas Geiger, Siyu Tang
分类: cs.CV
发布日期: 2023-12-14 (更新: 2024-04-04)
备注: Project page: https://neuralbodies.github.io/3DGS-Avatar
💡 一句话要点
提出基于可变形3D高斯溅射的3DGS-Avatar,实现快速可动画化身重建
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D高斯溅射 可动画化身 非刚性形变 实时渲染 单目视频重建
📋 核心要点
- 现有基于NeRF的化身重建方法训练耗时,推理速度慢,难以满足实时应用需求。
- 利用3D高斯溅射和非刚性形变网络,实现快速训练和实时渲染的可动画化身。
- 引入尽可能等距的正则化,提升模型在未见姿态下的泛化能力,性能优于现有方法。
📝 摘要(中文)
本文提出了一种从单目视频创建可动画人体化身的方法,该方法基于3D高斯溅射(3DGS)。现有的基于神经辐射场(NeRFs)的方法虽然能够实现高质量的新视角/新姿态图像合成,但通常需要数天的训练时间,并且在推理时速度极慢。最近,学术界探索了快速网格结构,以高效地训练服装化身。尽管这些方法在训练时非常快,但几乎无法实现交互式渲染帧率(约15 FPS)。在本文中,我们使用3D高斯溅射并学习一个非刚性形变网络来重建可动画的服装人体化身,该化身可以在30分钟内训练完成,并以实时帧率(50+ FPS)渲染。鉴于我们表示的显式性质,我们进一步在高斯均值向量和协方差矩阵上引入了尽可能等距的正则化,从而增强了我们的模型在高度铰接的未见姿势上的泛化能力。实验结果表明,我们的方法在从单目输入创建可动画化身方面,与最先进的方法相比,实现了可比甚至更好的性能,同时在训练和推理方面分别快了400倍和250倍。
🔬 方法详解
问题定义:论文旨在解决从单目视频中快速重建可动画人体化身的问题。现有基于NeRF的方法虽然能生成高质量的化身,但训练时间过长,推理速度慢,难以满足实时应用的需求。而基于快速网格结构的方法虽然训练速度快,但渲染质量和帧率较低。
核心思路:论文的核心思路是利用3D高斯溅射(3DGS)的快速渲染能力,并结合一个非刚性形变网络来驱动3D高斯的形变,从而实现快速训练和实时渲染的可动画化身。通过显式的3D高斯表示,可以方便地进行优化和正则化,提高模型的泛化能力。
技术框架:整体框架包括以下几个主要步骤:1) 从单目视频中提取人体姿态参数(例如SMPL参数)。2) 使用姿态参数作为输入,通过一个非刚性形变网络预测3D高斯云的形变。3) 使用形变后的3D高斯云进行渲染,生成图像。4) 通过比较渲染图像和真实图像之间的差异,优化形变网络和3D高斯云的参数。
关键创新:最重要的技术创新点在于将3D高斯溅射应用于可动画化身重建,并结合非刚性形变网络来实现快速训练和实时渲染。与现有方法相比,该方法在训练速度和渲染速度上都有显著提升。此外,引入的尽可能等距的正则化也提高了模型在未见姿态下的泛化能力。
关键设计:论文的关键设计包括:1) 使用3D高斯溅射作为显式表示,便于优化和渲染。2) 设计非刚性形变网络,将姿态参数映射到3D高斯云的形变。3) 引入尽可能等距的正则化,包括对高斯均值向量和协方差矩阵的正则化,以约束形变的合理性。损失函数包括渲染损失(例如L1损失或感知损失)和正则化损失。
📊 实验亮点
实验结果表明,该方法在可动画化身重建方面取得了与最先进方法相当甚至更好的性能,同时训练速度提升了400倍,推理速度提升了250倍。该方法能够在30分钟内完成训练,并以50+ FPS的帧率进行实时渲染,显著提升了用户体验。
🎯 应用场景
该研究成果可应用于虚拟现实、增强现实、游戏、动画制作等领域。用户可以使用单目视频快速创建自己的3D化身,并进行实时互动。该技术还可以用于虚拟试衣、远程协作等应用场景,具有广阔的应用前景和商业价值。
📄 摘要(原文)
We introduce an approach that creates animatable human avatars from monocular videos using 3D Gaussian Splatting (3DGS). Existing methods based on neural radiance fields (NeRFs) achieve high-quality novel-view/novel-pose image synthesis but often require days of training, and are extremely slow at inference time. Recently, the community has explored fast grid structures for efficient training of clothed avatars. Albeit being extremely fast at training, these methods can barely achieve an interactive rendering frame rate with around 15 FPS. In this paper, we use 3D Gaussian Splatting and learn a non-rigid deformation network to reconstruct animatable clothed human avatars that can be trained within 30 minutes and rendered at real-time frame rates (50+ FPS). Given the explicit nature of our representation, we further introduce as-isometric-as-possible regularizations on both the Gaussian mean vectors and the covariance matrices, enhancing the generalization of our model on highly articulated unseen poses. Experimental results show that our method achieves comparable and even better performance compared to state-of-the-art approaches on animatable avatar creation from a monocular input, while being 400x and 250x faster in training and inference, respectively.