RealWonder: Real-Time Physical Action-Conditioned Video Generation

📄 arXiv: 2603.05449v1 📥 PDF

作者: Wei Liu, Ziyu Chen, Zizhang Li, Yue Wang, Hong-Xing Yu, Jiajun Wu

分类: cs.CV, cs.AI, cs.GR

发布日期: 2026-03-05

备注: The first two authors contributed equally. The last two authors advised equally. Project website: https://liuwei283.github.io/RealWonder/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

RealWonder:首个基于物理作用条件下的实时视频生成系统

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 视频生成 物理模拟 3D重建 实时渲染 扩散模型

📋 核心要点

  1. 现有视频生成模型难以模拟作用对3D场景的物理影响,缺乏对作用与场景结构关系的理解。
  2. RealWonder利用物理模拟作为桥梁,将作用转化为光流和RGB等视觉表示,供视频模型处理。
  3. 系统集成了3D重建、物理模拟和蒸馏视频生成器,在较高分辨率下实现了实时性能。

📝 摘要(中文)

现有的视频生成模型无法模拟3D作用(如力或机器人操作)产生的物理结果,因为它们缺乏对作用如何影响3D场景的结构性理解。我们提出了RealWonder,这是第一个基于单张图像实现作用条件下的实时视频生成系统。我们的关键思想是使用物理模拟作为中间桥梁:我们不直接编码连续的作用,而是通过物理模拟将其转换为视频模型可以处理的视觉表示(光流和RGB)。RealWonder集成了三个组件:从单张图像进行3D重建、物理模拟以及仅需4步扩散的蒸馏视频生成器。我们的系统在480x832分辨率下实现了13.2 FPS,从而可以交互式地探索刚性物体、可变形物体、流体和颗粒材料上的力、机器人作用和相机控制。我们设想RealWonder为在沉浸式体验、AR/VR和机器人学习中应用视频模型开辟了新的机会。我们的代码和模型权重已在我们的项目网站上公开发布。

🔬 方法详解

问题定义:现有视频生成模型在处理物理作用(例如力、机器人操作)对3D场景的影响时存在困难。它们无法准确预测作用后的场景变化,缺乏对作用与场景结构之间关系的有效建模。这限制了它们在需要理解和模拟物理交互的场景中的应用。

核心思路:RealWonder的核心思路是利用物理模拟作为中间桥梁,将作用转化为视觉模型可以理解和处理的信息。通过物理引擎模拟作用后的场景变化,并将模拟结果转化为光流和RGB图像等视觉表示,从而使视频生成模型能够学习到作用与场景变化之间的关系。

技术框架:RealWonder系统包含三个主要模块:1) 3D重建模块:从单张图像中重建3D场景;2) 物理模拟模块:根据输入的作用和重建的3D场景,使用物理引擎模拟场景的演变,并生成光流和RGB图像;3) 视频生成模块:基于物理模拟模块的输出,生成最终的视频。整个流程是端到端可训练的。

关键创新:RealWonder的关键创新在于将物理模拟与视频生成相结合,利用物理引擎的先验知识来指导视频生成过程。与直接从作用生成视频的方法相比,RealWonder通过物理模拟解耦了作用与视觉变化,从而提高了生成视频的真实性和可控性。此外,系统还采用了蒸馏技术,显著提高了视频生成的效率。

关键设计:在3D重建模块,可以使用现有的单视图3D重建方法。物理模拟模块需要选择合适的物理引擎,并根据不同的场景设置合适的物理参数。视频生成模块采用扩散模型,并通过蒸馏技术减少扩散步骤,从而提高生成速度。损失函数包括重建损失、光流损失和对抗损失等,用于约束生成视频的质量和真实性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RealWonder系统在480x832分辨率下实现了13.2 FPS的实时性能,这使得用户可以进行交互式的探索。与现有的视频生成方法相比,RealWonder能够更真实地模拟物理作用对场景的影响,生成更逼真的视频。通过蒸馏技术,RealWonder显著减少了视频生成所需的计算资源,提高了生成效率。

🎯 应用场景

RealWonder具有广泛的应用前景,包括沉浸式体验、AR/VR、机器人学习等领域。例如,在AR/VR中,用户可以与虚拟物体进行交互,RealWonder可以实时生成交互后的视觉效果。在机器人学习中,RealWonder可以用于生成训练数据,帮助机器人学习如何与环境进行交互。此外,该技术还可以应用于游戏开发、电影特效等领域。

📄 摘要(原文)

Current video generation models cannot simulate physical consequences of 3D actions like forces and robotic manipulations, as they lack structural understanding of how actions affect 3D scenes. We present RealWonder, the first real-time system for action-conditioned video generation from a single image. Our key insight is using physics simulation as an intermediate bridge: instead of directly encoding continuous actions, we translate them through physics simulation into visual representations (optical flow and RGB) that video models can process. RealWonder integrates three components: 3D reconstruction from single images, physics simulation, and a distilled video generator requiring only 4 diffusion steps. Our system achieves 13.2 FPS at 480x832 resolution, enabling interactive exploration of forces, robot actions, and camera controls on rigid objects, deformable bodies, fluids, and granular materials. We envision RealWonder opens new opportunities to apply video models in immersive experiences, AR/VR, and robot learning. Our code and model weights are publicly available in our project website: https://liuwei283.github.io/RealWonder/