ONE-SHOT: Compositional Human-Environment Video Synthesis via Spatial-Decoupled Motion Injection and Hybrid Context Integration

作者: Fengyuan Yang, Luying Huang, Jiazhi Guan, Quanwei Yang, Dongwei Pan, Jianglin Fu, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Angela Yao

分类: cs.CV

发布日期: 2026-04-01

备注: 23 pages, 7 figures

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

ONE-SHOT：通过空间解耦运动注入和混合上下文集成实现可组合的人-环境视频合成

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频合成 人-环境交互 解耦表示 长时程生成 位置嵌入 交叉注意力 视频基础模型

📋 核心要点

现有方法在进行人-环境视频合成时，难以实现对主体和场景的精细化和独立编辑，且3D预处理限制了可扩展性。
ONE-SHOT通过解耦人类动态和环境线索，并引入规范空间注入机制和Dynamic-Grounded-RoPE位置嵌入策略来解决上述问题。
实验结果表明，ONE-SHOT在结构控制和创造多样性方面显著优于现有方法，实现了更优越的视频合成效果。

📝 摘要（中文）

视频基础模型（VFMs）的最新进展彻底改变了以人为中心的视频合成，但对主体和场景进行精细且独立的编辑仍然是一个关键挑战。最近尝试通过刚性3D几何组合来整合更丰富的环境控制的方法，通常会在精确控制和生成灵活性之间面临明显的权衡。此外，繁重的3D预处理仍然限制了实际的可扩展性。在本文中，我们提出了ONE-SHOT，这是一个用于可组合的人-环境视频生成的参数高效框架。我们的核心思想是将生成过程分解为解耦的信号。具体来说，我们引入了一种规范空间注入机制，通过交叉注意力将人类动态与环境线索分离。我们还提出了一种新的位置嵌入策略Dynamic-Grounded-RoPE，它在不同的空间域之间建立空间对应关系，而无需任何启发式3D对齐。为了支持长时程合成，我们引入了一种混合上下文集成机制，以在分钟级的生成过程中保持主体和场景的一致性。实验表明，我们的方法显著优于最先进的方法，为视频合成提供了卓越的结构控制和创造多样性。我们的项目已在https://martayang.github.io/ONE-SHOT/上提供。

🔬 方法详解

问题定义：论文旨在解决人-环境视频合成中，难以对主体和环境进行精细化、独立控制的问题。现有方法通常需要在精确控制和生成灵活性之间进行权衡，并且依赖于繁琐的3D预处理，限制了其在实际场景中的应用。

核心思路：论文的核心思路是将视频生成过程分解为解耦的信号，从而实现对主体和环境的独立控制。通过将人类动态和环境线索分离，并建立它们之间的空间对应关系，可以更灵活地生成高质量的视频。

技术框架：ONE-SHOT框架主要包含以下几个模块：1) 规范空间注入机制，用于解耦人类动态和环境线索；2) Dynamic-Grounded-RoPE，一种新的位置嵌入策略，用于建立不同空间域之间的空间对应关系；3) 混合上下文集成机制，用于保持长时程视频合成中主体和场景的一致性。

关键创新：该论文的关键创新在于：1) 提出了一种规范空间注入机制，通过交叉注意力将人类动态与环境线索解耦；2) 提出了一种新的位置嵌入策略Dynamic-Grounded-RoPE，无需3D对齐即可建立不同空间域之间的空间对应关系；3) 提出了混合上下文集成机制，用于长时程视频合成。

关键设计：Dynamic-Grounded-RoPE的具体实现细节未知，但其核心思想是在不同的空间域之间建立空间对应关系，从而实现更精确的控制。混合上下文集成机制的具体实现细节也未知，但其目标是保持长时程视频合成中主体和场景的一致性。损失函数和网络结构等细节在论文中未明确说明。

🖼️ 关键图片

📊 实验亮点

论文实验结果表明，ONE-SHOT方法在人-环境视频合成方面显著优于现有方法，能够实现更精确的结构控制和更丰富的创造多样性。具体的性能数据和对比基线在摘要中未提及，需要在论文正文中查找。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏开发、电影制作等领域，实现对虚拟人物和环境的精细化控制和互动，提升用户体验。例如，可以用于创建逼真的虚拟角色，并将其放置在各种环境中，进行互动和表演。此外，该技术还可以用于视频编辑和特效制作，实现更灵活和高效的视频创作。

📄 摘要（原文）

Recent advances in Video Foundation Models (VFMs) have revolutionized human-centric video synthesis, yet fine-grained and independent editing of subjects and scenes remains a critical challenge. Recent attempts to incorporate richer environment control through rigid 3D geometric compositions often encounter a stark trade-off between precise control and generative flexibility. Furthermore, the heavy 3D pre-processing still limits practical scalability. In this paper, we propose ONE-SHOT, a parameter-efficient framework for compositional human-environment video generation. Our key insight is to factorize the generative process into disentangled signals. Specifically, we introduce a canonical-space injection mechanism that decouples human dynamics from environmental cues via cross-attention. We also propose Dynamic-Grounded-RoPE, a novel positional embedding strategy that establishes spatial correspondences between disparate spatial domains without any heuristic 3D alignments. To support long-horizon synthesis, we introduce a Hybrid Context Integration mechanism to maintain subject and scene consistency across minute-level generations. Experiments demonstrate that our method significantly outperforms state-of-the-art methods, offering superior structural control and creative diversity for video synthesis. Our project has been available on: https://martayang.github.io/ONE-SHOT/.

ONE-SHOT: Compositional Human-Environment Video Synthesis via Spatial-Decoupled Motion Injection and Hybrid Context Integration

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理