InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion

作者: Hoiyeong Jin, Hyojin Jang, Jeongho Kim, Junha Hyung, Kinam Kim, Dongjin Kim, Huijin Choi, Hyeonji Kim, Jaegul Choo

分类: cs.CV, cs.AI

发布日期: 2025-12-19

备注: 16 pages, project page: https://myyzzzoooo.github.io/InsertAnywhere/

💡 一句话要点

InsertAnywhere：融合4D场景几何与扩散模型，实现逼真的视频对象插入

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 视频对象插入 扩散模型 4D场景理解 几何一致性 视频生成 ROSE++数据集 光照感知 视频编辑

📋 核心要点

现有视频对象插入方法缺乏对4D场景的深入理解，难以处理遮挡和光照变化等复杂情况。
InsertAnywhere框架利用4D感知掩码生成模块重建场景几何，并结合扩散模型合成逼真的插入对象。
实验表明，InsertAnywhere在几何一致性和视觉连贯性方面显著优于现有方法，效果更佳。

📝 摘要（中文）

扩散模型在视频生成领域的最新进展为可控视频编辑带来了新的可能性，但由于对4D场景理解的局限以及对遮挡和光照效果处理的不足，逼真的视频对象插入（VOI）仍然具有挑战性。我们提出了InsertAnywhere，一个新的VOI框架，它实现了几何一致的对象放置和外观逼真的视频合成。我们的方法首先使用一个4D感知的掩码生成模块，该模块重建场景几何并在帧之间传播用户指定的对象放置，同时保持时间一致性和遮挡一致性。在此空间基础上，我们扩展了一个基于扩散的视频生成模型，以联合合成插入的对象及其周围的局部变化，如光照和阴影。为了实现监督训练，我们引入了ROSE++，一个光照感知的合成数据集，通过将ROSE对象移除数据集转换为对象移除视频、对象存在视频和VLM生成的参考图像的三元组来构建。通过大量的实验，我们证明了我们的框架在各种真实场景中产生了几何上合理且视觉上连贯的对象插入，显著优于现有的研究和商业模型。

🔬 方法详解

问题定义：视频对象插入（VOI）旨在将新的对象无缝地融入现有视频中。现有的方法在处理复杂的场景几何、遮挡关系以及光照变化时表现不足，导致插入的对象与周围环境不协调，缺乏真实感。这些方法通常难以保证插入对象在时间上的连贯性，容易出现闪烁或不自然的运动。

核心思路：InsertAnywhere的核心思路是将4D场景几何信息融入到扩散模型的视频生成过程中。通过重建场景的几何结构，可以实现对象在视频帧之间的几何一致性放置。同时，利用扩散模型强大的生成能力，可以合成与场景光照条件相匹配的插入对象，从而提高真实感。

技术框架：InsertAnywhere框架主要包含两个模块：4D感知掩码生成模块和扩散模型视频合成模块。首先，4D感知掩码生成模块负责重建场景的几何结构，并根据用户指定的对象位置生成时间上连贯的掩码。然后，扩散模型视频合成模块利用生成的掩码和场景信息，联合合成插入的对象及其周围的局部变化，如光照和阴影。为了进行监督训练，该论文还提出了ROSE++数据集。

关键创新：该论文的关键创新在于将4D场景几何信息与扩散模型相结合，从而实现了更逼真、更连贯的视频对象插入。与现有方法相比，InsertAnywhere能够更好地处理遮挡关系和光照变化，并保证插入对象在时间上的几何一致性。ROSE++数据集的提出也为监督训练提供了数据支持。

关键设计：4D感知掩码生成模块利用深度估计和光流等技术重建场景几何。扩散模型视频合成模块采用U-Net结构，并引入了注意力机制来更好地融合场景信息。ROSE++数据集通过将ROSE数据集转换为三元组形式，并利用VLM生成参考图像，从而实现了光照感知的监督训练。

🖼️ 关键图片

📊 实验亮点

实验结果表明，InsertAnywhere在几何一致性和视觉连贯性方面显著优于现有方法。在多个真实场景的测试中，InsertAnywhere能够生成几何上合理且视觉上连贯的对象插入，效果优于现有的研究和商业模型。通过定量指标和定性比较，验证了该框架的有效性和优越性。

🎯 应用场景

InsertAnywhere技术可广泛应用于视频编辑、电影特效、游戏开发等领域。例如，用户可以使用该技术轻松地在现有视频中添加新的角色或物体，从而创造出更具创意和吸引力的内容。该技术还可以用于虚拟现实和增强现实应用中，以增强用户体验。未来，该技术有望进一步发展，实现更智能、更自动化的视频编辑功能。

📄 摘要（原文）

Recent advances in diffusion-based video generation have opened new possibilities for controllable video editing, yet realistic video object insertion (VOI) remains challenging due to limited 4D scene understanding and inadequate handling of occlusion and lighting effects. We present InsertAnywhere, a new VOI framework that achieves geometrically consistent object placement and appearance-faithful video synthesis. Our method begins with a 4D aware mask generation module that reconstructs the scene geometry and propagates user specified object placement across frames while maintaining temporal coherence and occlusion consistency. Building upon this spatial foundation, we extend a diffusion based video generation model to jointly synthesize the inserted object and its surrounding local variations such as illumination and shading. To enable supervised training, we introduce ROSE++, an illumination aware synthetic dataset constructed by transforming the ROSE object removal dataset into triplets of object removed video, object present video, and a VLM generated reference image. Through extensive experiments, we demonstrate that our framework produces geometrically plausible and visually coherent object insertions across diverse real world scenarios, significantly outperforming existing research and commercial models.

InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册