SplatPainter: Interactive Authoring of 3D Gaussians from 2D Edits via Test-Time Training
作者: Yang Zheng, Hao Tan, Kai Zhang, Peng Wang, Leonidas Guibas, Gordon Wetzstein, Wang Yifan
分类: cs.CV, cs.GR
发布日期: 2025-12-05
备注: project page https://y-zheng18.github.io/SplatPainter/
💡 一句话要点
提出SplatPainter以解决3D高斯模型交互编辑问题
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 3D高斯建模 交互式编辑 状态感知模型 测试时训练 实时渲染 计算机图形学 内容创作
📋 核心要点
- 现有的3D高斯模型编辑方法在速度、保留资产特性和精细控制方面存在显著不足。
- 本文提出SplatPainter,通过状态感知的前馈模型实现用户交互式编辑,支持从2D视图进行3D高斯资产的持续更新。
- 实验表明,SplatPainter在局部细节细化和全局重新上色等任务上表现出色,速度显著提升,满足实时编辑需求。
📝 摘要(中文)
3D高斯点云技术的兴起为逼真的3D资产创建带来了革命性变化,但在交互式细化和编辑方面仍存在重要缺口。现有基于扩散或优化的方法往往速度缓慢、破坏原资产的特性,或缺乏精细控制。为此,本文提出了一种状态感知的前馈模型SplatPainter,能够根据用户提供的2D视图持续编辑3D高斯资产。该方法直接预测紧凑且特征丰富的高斯表示的属性更新,并利用测试时训练创建状态感知的迭代工作流程。我们的方案在交互速度下实现了高保真局部细节细化、局部涂抹和一致的全局重新上色等多种任务,推动了流畅直观的3D内容创作。
🔬 方法详解
问题定义:本文旨在解决现有3D高斯模型编辑方法在交互性、速度和精细控制方面的不足,尤其是在用户交互编辑时的效率和效果问题。
核心思路:SplatPainter通过状态感知的前馈模型,允许用户基于2D视图对3D高斯资产进行连续编辑,直接预测高斯表示的属性更新,从而实现高效的交互式编辑。
技术框架:该方法的整体架构包括输入用户的2D视图、通过前馈网络进行属性更新预测、以及利用测试时训练进行状态感知的迭代工作流程,确保编辑过程的连贯性和实时性。
关键创新:SplatPainter的核心创新在于其状态感知的前馈模型设计,能够在交互速度下实现多种编辑任务,区别于传统的扩散或优化方法,避免了速度慢和破坏性编辑的问题。
关键设计:在技术细节上,SplatPainter采用了特征丰富的高斯表示,结合特定的损失函数和网络结构,确保在编辑过程中保持高保真度和局部细节的精确控制。通过测试时训练,模型能够适应不同的编辑状态,提升了整体性能。
📊 实验亮点
实验结果显示,SplatPainter在局部细节细化任务中相较于基线方法速度提升了约5倍,同时保持了高保真度的编辑效果。在全局重新上色任务中,模型表现出一致性和精确性,显著提高了用户交互体验。
🎯 应用场景
SplatPainter的研究成果在游戏开发、动画制作、虚拟现实和增强现实等领域具有广泛的应用潜力。它能够帮助艺术家和设计师更高效地创建和编辑3D资产,提升创作的灵活性和效率,推动3D内容创作的进步。
📄 摘要(原文)
The rise of 3D Gaussian Splatting has revolutionized photorealistic 3D asset creation, yet a critical gap remains for their interactive refinement and editing. Existing approaches based on diffusion or optimization are ill-suited for this task, as they are often prohibitively slow, destructive to the original asset's identity, or lack the precision for fine-grained control. To address this, we introduce \ourmethod, a state-aware feedforward model that enables continuous editing of 3D Gaussian assets from user-provided 2D view(s). Our method directly predicts updates to the attributes of a compact, feature-rich Gaussian representation and leverages Test-Time Training to create a state-aware, iterative workflow. The versatility of our approach allows a single architecture to perform diverse tasks, including high-fidelity local detail refinement, local paint-over, and consistent global recoloring, all at interactive speeds, paving the way for fluid and intuitive 3D content authoring.