ONE-SHOT: Compositional Human-Environment Video Synthesis via Spatial-Decoupled Motion Injection and Hybrid Context Integration
作者: Fengyuan Yang, Luying Huang, Jiazhi Guan, Quanwei Yang, Dongwei Pan, Jianglin Fu, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Angela Yao
分类: cs.CV
发布日期: 2026-04-01
备注: 23 pages, 7 figures
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
ONE-SHOT:通过空间解耦运动注入和混合上下文集成实现可组合的人-环境视频合成
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频合成 人-环境交互 解耦表示 长时程生成 位置嵌入 交叉注意力 视频基础模型
📋 核心要点
- 现有方法在进行人-环境视频合成时,难以实现对主体和场景的精细化和独立编辑,且3D预处理限制了可扩展性。
- ONE-SHOT通过解耦人类动态和环境线索,并引入规范空间注入机制和Dynamic-Grounded-RoPE位置嵌入策略来解决上述问题。
- 实验结果表明,ONE-SHOT在结构控制和创造多样性方面显著优于现有方法,实现了更优越的视频合成效果。
📝 摘要(中文)
视频基础模型(VFMs)的最新进展彻底改变了以人为中心的视频合成,但对主体和场景进行精细且独立的编辑仍然是一个关键挑战。最近尝试通过刚性3D几何组合来整合更丰富的环境控制的方法,通常会在精确控制和生成灵活性之间面临明显的权衡。此外,繁重的3D预处理仍然限制了实际的可扩展性。在本文中,我们提出了ONE-SHOT,这是一个用于可组合的人-环境视频生成的参数高效框架。我们的核心思想是将生成过程分解为解耦的信号。具体来说,我们引入了一种规范空间注入机制,通过交叉注意力将人类动态与环境线索分离。我们还提出了一种新的位置嵌入策略Dynamic-Grounded-RoPE,它在不同的空间域之间建立空间对应关系,而无需任何启发式3D对齐。为了支持长时程合成,我们引入了一种混合上下文集成机制,以在分钟级的生成过程中保持主体和场景的一致性。实验表明,我们的方法显著优于最先进的方法,为视频合成提供了卓越的结构控制和创造多样性。我们的项目已在https://martayang.github.io/ONE-SHOT/上提供。
🔬 方法详解
问题定义:论文旨在解决人-环境视频合成中,难以对主体和环境进行精细化、独立控制的问题。现有方法通常需要在精确控制和生成灵活性之间进行权衡,并且依赖于繁琐的3D预处理,限制了其在实际场景中的应用。
核心思路:论文的核心思路是将视频生成过程分解为解耦的信号,从而实现对主体和环境的独立控制。通过将人类动态和环境线索分离,并建立它们之间的空间对应关系,可以更灵活地生成高质量的视频。
技术框架:ONE-SHOT框架主要包含以下几个模块:1) 规范空间注入机制,用于解耦人类动态和环境线索;2) Dynamic-Grounded-RoPE,一种新的位置嵌入策略,用于建立不同空间域之间的空间对应关系;3) 混合上下文集成机制,用于保持长时程视频合成中主体和场景的一致性。
关键创新:该论文的关键创新在于:1) 提出了一种规范空间注入机制,通过交叉注意力将人类动态与环境线索解耦;2) 提出了一种新的位置嵌入策略Dynamic-Grounded-RoPE,无需3D对齐即可建立不同空间域之间的空间对应关系;3) 提出了混合上下文集成机制,用于长时程视频合成。
关键设计:Dynamic-Grounded-RoPE的具体实现细节未知,但其核心思想是在不同的空间域之间建立空间对应关系,从而实现更精确的控制。混合上下文集成机制的具体实现细节也未知,但其目标是保持长时程视频合成中主体和场景的一致性。损失函数和网络结构等细节在论文中未明确说明。
🖼️ 关键图片
📊 实验亮点
论文实验结果表明,ONE-SHOT方法在人-环境视频合成方面显著优于现有方法,能够实现更精确的结构控制和更丰富的创造多样性。具体的性能数据和对比基线在摘要中未提及,需要在论文正文中查找。
🎯 应用场景
该研究成果可应用于虚拟现实、游戏开发、电影制作等领域,实现对虚拟人物和环境的精细化控制和互动,提升用户体验。例如,可以用于创建逼真的虚拟角色,并将其放置在各种环境中,进行互动和表演。此外,该技术还可以用于视频编辑和特效制作,实现更灵活和高效的视频创作。
📄 摘要(原文)
Recent advances in Video Foundation Models (VFMs) have revolutionized human-centric video synthesis, yet fine-grained and independent editing of subjects and scenes remains a critical challenge. Recent attempts to incorporate richer environment control through rigid 3D geometric compositions often encounter a stark trade-off between precise control and generative flexibility. Furthermore, the heavy 3D pre-processing still limits practical scalability. In this paper, we propose ONE-SHOT, a parameter-efficient framework for compositional human-environment video generation. Our key insight is to factorize the generative process into disentangled signals. Specifically, we introduce a canonical-space injection mechanism that decouples human dynamics from environmental cues via cross-attention. We also propose Dynamic-Grounded-RoPE, a novel positional embedding strategy that establishes spatial correspondences between disparate spatial domains without any heuristic 3D alignments. To support long-horizon synthesis, we introduce a Hybrid Context Integration mechanism to maintain subject and scene consistency across minute-level generations. Experiments demonstrate that our method significantly outperforms state-of-the-art methods, offering superior structural control and creative diversity for video synthesis. Our project has been available on: https://martayang.github.io/ONE-SHOT/.