Learning to Generate Rigid Body Interactions with Video Diffusion Models

作者: David Romero, Ariana Bermudez, Hao Li, Fabio Pizzati, Ivan Laptev

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-10-02 (更新: 2025-11-30)

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

KineMask：利用视频扩散模型生成具有刚体交互的视频

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion)

关键词: 视频生成 扩散模型 刚体交互 物理模拟 运动控制 文本条件 物体掩码

📋 核心要点

现有视频生成模型在生成物理上合理的物体交互方面存在困难，并且缺乏物体级别的控制机制。
KineMask通过物体掩码逐步移除未来运动监督，并结合低级运动控制与高级文本条件，实现逼真的刚体交互视频生成。
实验表明，KineMask在物体交互方面显著优于现有模型，并且低级和高级条件在视频扩散模型中起互补作用。

📝 摘要（中文）

本文提出KineMask，一种用于视频生成的方法，能够实现逼真的刚体控制、交互和效果。给定单张图像和指定的物体速度，该方法生成具有推断运动和未来物体交互的视频。论文提出了一种两阶段训练策略，通过物体掩码逐步移除未来运动监督。通过这种策略，在简单交互的合成场景上训练视频扩散模型（VDM），并展示了在真实场景中物体交互的显著改进。此外，KineMask通过预测的场景描述将低级运动控制与高级文本条件相结合，从而支持复杂动力学现象的合成。实验表明，KineMask相对于近期同等规模的模型取得了显著改进。消融研究进一步突出了VDM中低级和高级条件的互补作用。代码、模型和数据将公开。

🔬 方法详解

问题定义：现有视频生成模型难以生成具有物理合理性的物体交互，尤其是在刚体交互方面，并且缺乏对视频中物体的精细控制能力。这限制了它们在机器人和具身决策等领域的应用潜力。

核心思路：KineMask的核心思路是通过两阶段训练策略，逐步减少对未来运动的监督，从而使模型能够学习到更真实的物理交互。同时，结合低级运动控制（物体速度）和高级文本条件（场景描述），以实现更灵活和可控的视频生成。

技术框架：KineMask采用视频扩散模型（VDM）作为基础框架。整体流程包括：1）输入单张图像和物体速度；2）通过VDM生成视频，其中VDM的训练分为两个阶段：第一阶段使用完整的未来运动监督，第二阶段逐步移除未来运动监督，只保留物体掩码；3）结合文本条件，通过预测的场景描述来引导视频生成。

关键创新：KineMask的关键创新在于其两阶段训练策略，该策略通过逐步移除未来运动监督，使模型能够学习到更真实的物理交互。此外，结合低级运动控制和高级文本条件，实现了对视频生成过程的更精细控制。

关键设计：KineMask使用物体掩码来控制未来运动监督的移除过程。在训练过程中，逐渐增加掩码的比例，从而使模型能够逐渐适应没有完整未来运动监督的情况。损失函数包括重建损失和对抗损失，以保证生成视频的质量和真实性。网络结构采用标准的U-Net结构，并添加了条件输入层，用于接收物体速度和文本描述等条件信息。

📊 实验亮点

实验结果表明，KineMask在合成具有刚体交互的视频方面取得了显著的改进。与同等规模的现有模型相比，KineMask能够生成更逼真、更物理合理的物体交互。消融研究进一步验证了低级运动控制和高级文本条件在视频扩散模型中的互补作用。

🎯 应用场景

KineMask具有广泛的应用前景，包括电影制作、社交媒体内容生成、广告设计等。更重要的是，它可以作为机器人和具身决策的强大世界模拟器，帮助机器人学习如何在复杂环境中进行交互和操作。该研究为开发更智能、更具适应性的机器人系统奠定了基础。

📄 摘要（原文）

Recent video generation models have achieved remarkable progress and are now deployed in film, social media production, and advertising. Beyond their creative potential, such models also hold promise as world simulators for robotics and embodied decision making. Despite strong advances, however, current approaches still struggle to generate physically plausible object interactions and lack object-level control mechanisms. To address these limitations, we introduce KineMask, an approach for video generation that enables realistic rigid body control, interactions, and effects. Given a single image and a specified object velocity, our method generates videos with inferred motions and future object interactions. We propose a two-stage training strategy that gradually removes future motion supervision via object masks. Using this strategy we train video diffusion models (VDMs) on synthetic scenes of simple interactions and demonstrate significant improvements of object interactions in real scenes. Furthermore, KineMask integrates low-level motion control with high-level textual conditioning via predicted scene descriptions, leading to support for synthesis of complex dynamical phenomena. Our experiments show that KineMask achieves strong improvements over recent models of comparable size. Ablation studies further highlight the complementary roles of low- and high-level conditioning in VDMs. Our code, model, and data will be made publicly available. Project Page: https://daromog.github.io/KineMask/

Learning to Generate Rigid Body Interactions with Video Diffusion Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册