TRACE: High-Fidelity 3D Scene Editing via Tangible Reconstruction and Geometry-Aligned Contextual Video Masking
作者: Jiyuan Hu, Zechuan Zhang, Zongxin Yang, Yi Yang
分类: cs.CV
发布日期: 2026-04-01
备注: 22 pages, 9 figures
💡 一句话要点
TRACE:基于可触重建和几何对齐上下文视频掩蔽的高保真3D场景编辑框架
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D场景编辑 视频扩散模型 几何锚定 多视角一致性 结构完整性
📋 核心要点
- 现有3D场景编辑方法难以实现细粒度的局部操作,且容易破坏场景的结构完整性。
- TRACE通过3D几何锚定视频扩散,实现部件级别的编辑,同时保持场景结构的一致性。
- 实验结果表明,TRACE在编辑的通用性和结构完整性方面优于现有方法,实现了高保真度的场景编辑。
📝 摘要(中文)
本文提出TRACE,一个网格引导的3DGS编辑框架,旨在实现自动化、高保真度的场景转换。TRACE通过显式的3D几何结构锚定视频扩散过程,实现了细粒度的、部件级别的操作,例如局部姿态调整或组件替换,同时保持中心主体的结构完整性,这是现有编辑方法普遍缺乏的能力。该方法包含三个关键阶段:(1)多视角3D锚点合成,利用在MV-TRACE数据集上训练的稀疏视角编辑器生成空间一致的3D锚点;MV-TRACE是首个致力于场景一致的对象添加和修改的多视角一致数据集。(2)可触几何锚定(TGA),通过两阶段配准确保插入网格与3DGS场景之间的精确空间同步;(3)上下文视频掩蔽(CVM),将3D投影集成到自回归视频流程中,以实现时间稳定、物理上合理的渲染。大量实验表明,TRACE在编辑通用性和结构完整性方面始终优于现有方法。
🔬 方法详解
问题定义:现有3D场景编辑方法在进行细粒度编辑时,例如局部姿态调整或组件替换,容易破坏场景的结构完整性,难以保证编辑后场景的真实感和一致性。此外,缺乏高质量的多视角数据集也限制了相关技术的发展。
核心思路:TRACE的核心思路是利用显式的3D几何结构作为锚点,引导视频扩散过程,从而实现对场景的精确控制和编辑。通过将编辑操作与3D几何信息对齐,可以确保编辑后的场景在空间和时间上的一致性,并保持结构完整性。
技术框架:TRACE框架包含三个主要阶段:(1)多视角3D锚点合成:利用在MV-TRACE数据集上训练的稀疏视角编辑器生成空间一致的3D锚点。(2)可触几何锚定(TGA):通过两阶段配准,将插入的网格与3DGS场景进行精确的空间同步。(3)上下文视频掩蔽(CVM):将3D投影集成到自回归视频流程中,以实现时间稳定且物理上合理的渲染。
关键创新:TRACE的关键创新在于将3D几何信息与视频扩散模型相结合,实现了细粒度的、部件级别的场景编辑,同时保持了场景的结构完整性。此外,MV-TRACE数据集的贡献也为相关研究提供了数据支持。与现有方法相比,TRACE能够更精确地控制编辑过程,并生成更逼真的编辑结果。
关键设计:在多视角3D锚点合成阶段,使用了稀疏视角编辑器,该编辑器在MV-TRACE数据集上进行训练,以生成空间一致的3D锚点。可触几何锚定(TGA)阶段采用两阶段配准策略,以确保插入网格与3DGS场景之间的精确空间同步。上下文视频掩蔽(CVM)阶段将3D投影集成到自回归视频流程中,以实现时间稳定且物理上合理的渲染。具体的损失函数和网络结构等细节未在摘要中详细描述。
🖼️ 关键图片
📊 实验亮点
TRACE在编辑通用性和结构完整性方面显著优于现有方法。实验结果表明,TRACE能够实现细粒度的局部编辑,例如局部姿态调整和组件替换,同时保持场景的结构完整性。具体的性能数据和对比基线未在摘要中详细给出,但强调了TRACE在编辑质量和一致性方面的优势。
🎯 应用场景
TRACE技术可应用于电影特效制作、游戏开发、虚拟现实/增强现实内容创作等领域。它能够帮助用户轻松地对3D场景进行编辑和修改,创造出更加逼真和个性化的视觉体验。该技术还有潜力应用于工业设计、建筑可视化等领域,为专业人士提供强大的3D场景编辑工具。
📄 摘要(原文)
We present TRACE, a mesh-guided 3DGS editing framework that achieves automated, high-fidelity scene transformation. By anchoring video diffusion with explicit 3D geometry, TRACE uniquely enables fine-grained, part-level manipulatio--such as local pose shifting or component replacemen--while preserving the structural integrity of the central subject, a capability largely absent in existing editing methods. Our approach comprises three key stages: (1) Multi-view 3D-Anchor Synthesis, which leverages a sparse-view editor trained on our MV-TRACE datase--the first multi-view consistent dataset dedicated to scene-coherent object addition and modificatio--to generate spatially consistent 3D-anchors; (2) Tangible Geometry Anchoring (TGA), which ensures precise spatial synchronization between inserted meshes and the 3DGS scene via two-phase registration; and (3) Contextual Video Masking (CVM), which integrates 3D projections into an autoregressive video pipeline to achieve temporally stable, physically-grounded rendering. Extensive experiments demonstrate that TRACE consistently outperforms existing methods especially in editing versatility and structural integrity.