Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

作者: Jiyuan Wang, Chunyu Lin, Lei Sun, Zhi Cao, Yuyang Yin, Lang Nie, Zhenlong Yuan, Xiangxiang Chu, Yunchao Wei, Kang Liao, Guosheng Lin

分类: cs.CV, cs.AI

发布日期: 2026-03-03

备注: 18 pages, 8 figures

💡 一句话要点

提出RL3DEdit，通过几何引导强化学习实现多视角一致的三维场景编辑

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 三维场景编辑 多视角一致性 强化学习 几何引导 3D基础模型 VGGT 扩散模型 图像编辑

📋 核心要点

现有3D编辑方法难以在编辑结果中保持多视角一致性，且缺乏3D一致的编辑配对数据，使得有监督微调不可行。
提出RL3DEdit，利用强化学习优化，并结合3D基础模型VGGT提供的几何先验知识作为奖励信号，引导编辑过程。
实验表明，RL3DEdit在保持多视角一致性的同时，实现了优于现有技术的编辑质量和效率。

📝 摘要（中文）

本文提出RL3DEdit，一个单次通过的框架，通过强化学习优化，并利用三维基础模型VGGT导出的新型奖励来驱动。尽管生成多视角一致的3D内容极具挑战，但验证3D一致性是可行的，这使得强化学习成为一个可行的解决方案。该方法利用VGGT从海量真实世界数据中学习到的鲁棒先验，输入编辑后的图像，并利用输出的置信度图和姿态估计误差作为奖励信号，通过强化学习将2D编辑先验有效地锚定到3D一致的流形上。大量实验表明，RL3DEdit实现了稳定的多视角一致性，并在编辑质量方面优于最先进的方法，同时具有很高的效率。代码和模型将被开源。

🔬 方法详解

问题定义：论文旨在解决三维场景编辑中多视角一致性难以保证的问题。现有的方法要么难以生成多视角一致的结果，要么需要大量的3D一致的编辑配对数据进行训练，而这种数据非常稀缺，导致有监督微调等方法难以应用。

核心思路：论文的核心思路是利用强化学习（RL）来优化编辑过程，并使用3D基础模型（VGGT）提供的几何先验知识作为奖励信号，引导编辑过程朝着多视角一致的方向发展。关键在于，虽然生成多视角一致的3D内容很难，但验证其一致性相对容易，这使得RL成为一个可行的选择。

技术框架：RL3DEdit是一个单次通过的框架，其主要流程如下：1) 输入多视角图像和编辑指令；2) 使用编辑模型（例如，基于扩散模型的图像编辑方法）生成编辑后的多视角图像；3) 将编辑后的图像输入到3D基础模型VGGT中；4) VGGT输出置信度图和姿态估计误差；5) 使用置信度图和姿态估计误差计算奖励信号；6) 使用奖励信号更新强化学习策略，指导编辑模型的参数更新。

关键创新：该方法最重要的创新点在于将强化学习与3D基础模型相结合，利用3D基础模型提供的几何先验知识作为奖励信号，从而在缺乏3D一致的编辑配对数据的情况下，实现了多视角一致的3D场景编辑。与现有方法相比，RL3DEdit不需要大量的3D一致数据进行训练，并且能够更有效地利用几何信息来保证多视角一致性。

关键设计：奖励函数的设计是关键。论文使用VGGT输出的置信度图和姿态估计误差来构建奖励函数。例如，可以使用置信度图的平均值作为奖励，鼓励编辑后的图像具有更高的3D一致性。同时，可以使用姿态估计误差的倒数作为奖励，鼓励编辑后的图像具有更准确的姿态估计。具体的奖励函数形式可能需要根据具体的应用场景进行调整。此外，强化学习算法的选择也很重要，可以选择合适的算法来平衡探索和利用，从而有效地优化编辑过程。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RL3DEdit在多视角一致性方面表现出色，显著优于现有的3D编辑方法。在编辑质量方面，RL3DEdit也取得了显著的提升，能够生成更逼真、更符合用户意图的编辑结果。此外，RL3DEdit具有很高的效率，能够快速地完成三维场景的编辑任务。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏开发、电影制作等领域，实现对三维场景的逼真编辑和修改。例如，可以用于在虚拟环境中修改建筑物的外观，或者在游戏中编辑角色的服装和道具，并保证在不同视角下的一致性。该技术具有广泛的应用前景，能够提升用户在三维环境中的交互体验。

📄 摘要（原文）

Leveraging the priors of 2D diffusion models for 3D editing has emerged as a promising paradigm. However, maintaining multi-view consistency in edited results remains challenging, and the extreme scarcity of 3D-consistent editing paired data renders supervised fine-tuning (SFT), the most effective training strategy for editing tasks, infeasible. In this paper, we observe that, while generating multi-view consistent 3D content is highly challenging, verifying 3D consistency is tractable, naturally positioning reinforcement learning (RL) as a feasible solution. Motivated by this, we propose \textbf{RL3DEdit}, a single-pass framework driven by RL optimization with novel rewards derived from the 3D foundation model, VGGT. Specifically, we leverage VGGT's robust priors learned from massive real-world data, feed the edited images, and utilize the output confidence maps and pose estimation errors as reward signals, effectively anchoring the 2D editing priors onto a 3D-consistent manifold via RL. Extensive experiments demonstrate that RL3DEdit achieves stable multi-view consistency and outperforms state-of-the-art methods in editing quality with high efficiency. To promote the development of 3D editing, we will release the code and model.

Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理