TRACE: High-Fidelity 3D Scene Editing via Tangible Reconstruction and Geometry-Aligned Contextual Video Masking

作者: Jiyuan Hu, Zechuan Zhang, Zongxin Yang, Yi Yang

分类: cs.CV

发布日期: 2026-04-01

备注: 22 pages, 9 figures

💡 一句话要点

TRACE：基于可触重建和几何对齐上下文视频掩蔽的高保真3D场景编辑框架

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D场景编辑 视频扩散模型 几何锚定 多视角一致性 结构完整性

📋 核心要点

现有3D场景编辑方法难以实现细粒度的局部操作，且容易破坏场景的结构完整性。
TRACE通过3D几何锚定视频扩散，实现部件级别的编辑，同时保持场景结构的一致性。
实验结果表明，TRACE在编辑的通用性和结构完整性方面优于现有方法，实现了高保真度的场景编辑。

📝 摘要（中文）

本文提出TRACE，一个网格引导的3DGS编辑框架，旨在实现自动化、高保真度的场景转换。TRACE通过显式的3D几何结构锚定视频扩散过程，实现了细粒度的、部件级别的操作，例如局部姿态调整或组件替换，同时保持中心主体的结构完整性，这是现有编辑方法普遍缺乏的能力。该方法包含三个关键阶段：（1）多视角3D锚点合成，利用在MV-TRACE数据集上训练的稀疏视角编辑器生成空间一致的3D锚点；MV-TRACE是首个致力于场景一致的对象添加和修改的多视角一致数据集。（2）可触几何锚定（TGA），通过两阶段配准确保插入网格与3DGS场景之间的精确空间同步；（3）上下文视频掩蔽（CVM），将3D投影集成到自回归视频流程中，以实现时间稳定、物理上合理的渲染。大量实验表明，TRACE在编辑通用性和结构完整性方面始终优于现有方法。

🔬 方法详解

问题定义：现有3D场景编辑方法在进行细粒度编辑时，例如局部姿态调整或组件替换，容易破坏场景的结构完整性，难以保证编辑后场景的真实感和一致性。此外，缺乏高质量的多视角数据集也限制了相关技术的发展。

核心思路：TRACE的核心思路是利用显式的3D几何结构作为锚点，引导视频扩散过程，从而实现对场景的精确控制和编辑。通过将编辑操作与3D几何信息对齐，可以确保编辑后的场景在空间和时间上的一致性，并保持结构完整性。

技术框架：TRACE框架包含三个主要阶段：（1）多视角3D锚点合成：利用在MV-TRACE数据集上训练的稀疏视角编辑器生成空间一致的3D锚点。（2）可触几何锚定（TGA）：通过两阶段配准，将插入的网格与3DGS场景进行精确的空间同步。（3）上下文视频掩蔽（CVM）：将3D投影集成到自回归视频流程中，以实现时间稳定且物理上合理的渲染。

关键创新：TRACE的关键创新在于将3D几何信息与视频扩散模型相结合，实现了细粒度的、部件级别的场景编辑，同时保持了场景的结构完整性。此外，MV-TRACE数据集的贡献也为相关研究提供了数据支持。与现有方法相比，TRACE能够更精确地控制编辑过程，并生成更逼真的编辑结果。

关键设计：在多视角3D锚点合成阶段，使用了稀疏视角编辑器，该编辑器在MV-TRACE数据集上进行训练，以生成空间一致的3D锚点。可触几何锚定（TGA）阶段采用两阶段配准策略，以确保插入网格与3DGS场景之间的精确空间同步。上下文视频掩蔽（CVM）阶段将3D投影集成到自回归视频流程中，以实现时间稳定且物理上合理的渲染。具体的损失函数和网络结构等细节未在摘要中详细描述。

🖼️ 关键图片

📊 实验亮点

TRACE在编辑通用性和结构完整性方面显著优于现有方法。实验结果表明，TRACE能够实现细粒度的局部编辑，例如局部姿态调整和组件替换，同时保持场景的结构完整性。具体的性能数据和对比基线未在摘要中详细给出，但强调了TRACE在编辑质量和一致性方面的优势。

🎯 应用场景

TRACE技术可应用于电影特效制作、游戏开发、虚拟现实/增强现实内容创作等领域。它能够帮助用户轻松地对3D场景进行编辑和修改，创造出更加逼真和个性化的视觉体验。该技术还有潜力应用于工业设计、建筑可视化等领域，为专业人士提供强大的3D场景编辑工具。

📄 摘要（原文）

We present TRACE, a mesh-guided 3DGS editing framework that achieves automated, high-fidelity scene transformation. By anchoring video diffusion with explicit 3D geometry, TRACE uniquely enables fine-grained, part-level manipulatio--such as local pose shifting or component replacemen--while preserving the structural integrity of the central subject, a capability largely absent in existing editing methods. Our approach comprises three key stages: (1) Multi-view 3D-Anchor Synthesis, which leverages a sparse-view editor trained on our MV-TRACE datase--the first multi-view consistent dataset dedicated to scene-coherent object addition and modificatio--to generate spatially consistent 3D-anchors; (2) Tangible Geometry Anchoring (TGA), which ensures precise spatial synchronization between inserted meshes and the 3DGS scene via two-phase registration; and (3) Contextual Video Masking (CVM), which integrates 3D projections into an autoregressive video pipeline to achieve temporally stable, physically-grounded rendering. Extensive experiments demonstrate that TRACE consistently outperforms existing methods especially in editing versatility and structural integrity.

TRACE: High-Fidelity 3D Scene Editing via Tangible Reconstruction and Geometry-Aligned Contextual Video Masking

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理