AvatarBrush: Monocular Reconstruction of Gaussian Avatars with Intuitive Local Editing

📄 arXiv: 2511.19189v1 📥 PDF

作者: Mengtian Li, Shengxiang Yao, Yichen Pan, Haiyao Xiao, Zhongmei Li, Zhifeng Xie, Keyu Chen

分类: cs.GR

发布日期: 2025-11-24


💡 一句话要点

AvatarBrush:单目视频重建可局部编辑的高斯人像模型

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 人像重建 三维高斯 局部编辑 单目视频 参数化人体模型

📋 核心要点

  1. 现有三维人像重建方法在局部编辑方面存在挑战,难以实现直观的用户交互和精细化调整。
  2. AvatarBrush利用单目视频,结合参数化人体模型和三维高斯表示,实现可动画和局部编辑的人像重建。
  3. 实验表明,AvatarBrush在人像重建质量和局部编辑能力上优于现有方法,且降低了数据采集成本。

📝 摘要(中文)

高质量且可直观编辑的人像重建是计算机视觉领域的一个重要挑战。三维高斯(3DGS)等技术在重建效率和渲染速度方面表现出色,但局部编辑能力仍有不足。本文提出AvatarBrush框架,仅使用单目视频输入即可重建完全可动画且局部可编辑的人像。该框架采用三层模型表示人像,并借鉴网格变形技术,从参数化人体模型的局部信息生成高斯模型。与需要扫描网格或多视角图像作为输入的现有方法相比,我们的方法降低了成本,并增强了身体形状调整、局部纹理修改和几何迁移等编辑功能。实验结果表明,我们的方法在两个数据集上均表现出卓越的质量,并突出了其增强的、用户友好的和局部化的编辑能力。

🔬 方法详解

问题定义:现有的人像重建方法,尤其是基于3DGS的方法,虽然在渲染速度和重建效率上表现出色,但在局部编辑方面存在明显的不足。用户难以直观地修改人像的身体形状、纹理等局部细节,限制了其应用范围。此外,一些方法依赖于多视角图像或扫描网格,增加了数据采集的成本和复杂度。

核心思路:AvatarBrush的核心思路是将参数化人体模型(如SMPL)的局部信息与3DGS表示相结合。通过参数化模型提供人体结构的先验知识,并利用其局部信息指导3DGS的生成和编辑。这种结合使得用户可以通过修改参数化模型的参数来控制人像的整体形状,并通过局部操作直接编辑3DGS的属性,从而实现直观的局部编辑。

技术框架:AvatarBrush框架包含三个主要层次:参数化人体模型层、中间表示层和3DGS层。首先,从单目视频中估计参数化人体模型的参数。然后,利用这些参数生成中间表示,该中间表示包含了人体表面的局部信息,如位置、法线和纹理坐标。最后,基于中间表示生成3DGS模型,并将其绑定到参数化人体模型上,实现可动画和局部编辑的人像。

关键创新:AvatarBrush的关键创新在于将参数化人体模型的局部信息与3DGS表示相结合,从而实现了可动画和局部编辑的人像重建。与现有方法相比,AvatarBrush无需多视角图像或扫描网格,降低了数据采集成本,并提供了更直观和灵活的局部编辑能力。此外,该方法还设计了一种新的框架,用于从参数化人体模型的局部信息生成高斯模型。

关键设计:AvatarBrush的关键设计包括:1) 使用三层模型表示人像,将参数化人体模型、中间表示和3DGS层有机结合;2) 设计了一种基于网格变形技术的框架,用于从参数化人体模型的局部信息生成高斯模型;3) 采用合适的损失函数,例如光度一致性损失和正则化损失,来优化3DGS模型的参数,保证重建质量。

📊 实验亮点

AvatarBrush在两个数据集上进行了实验,结果表明其在人像重建质量和局部编辑能力方面均优于现有方法。与基于多视角图像的方法相比,AvatarBrush在重建精度上具有可比性,同时显著降低了数据采集成本。此外,AvatarBrush还展示了强大的局部编辑能力,例如身体形状调整、局部纹理修改和几何迁移等。

🎯 应用场景

AvatarBrush在虚拟现实、增强现实、游戏开发、数字内容创作等领域具有广泛的应用前景。用户可以使用AvatarBrush快速创建和定制自己的虚拟形象,用于社交互动、在线会议、虚拟试衣等场景。此外,AvatarBrush还可以用于生成逼真的人体动画,为电影、电视等行业提供技术支持。

📄 摘要(原文)

The efficient reconstruction of high-quality and intuitively editable human avatars presents a pressing challenge in the field of computer vision. Recent advancements, such as 3DGS, have demonstrated impressive reconstruction efficiency and rapid rendering speeds. However, intuitive local editing of these representations remains a significant challenge. In this work, we propose AvatarBrush, a framework that reconstructs fully animatable and locally editable avatars using only a monocular video input. We propose a three-layer model to represent the avatar and, inspired by mesh morphing techniques, design a framework to generate the Gaussian model from local information of the parametric body model. Compared to previous methods that require scanned meshes or multi-view captures as input, our approach reduces costs and enhances editing capabilities such as body shape adjustment, local texture modification, and geometry transfer. Our experimental results demonstrate superior quality across two datasets and emphasize the enhanced, user-friendly, and localized editing capabilities of our method.