Dexterous World Models

📄 arXiv: 2512.17907v1 📥 PDF

作者: Byungjun Kim, Taeksoo Kim, Junyoung Lee, Hanbyul Joo

分类: cs.CV

发布日期: 2025-12-19

备注: Project Page: snuvclab.github.io/dwm


💡 一句话要点

提出灵巧世界模型DWM,实现基于视频扩散的交互式数字孪生

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 视频扩散模型 交互式数字孪生 具身模拟 3D场景理解 动作条件视频生成

📋 核心要点

  1. 现有数字孪生技术主要局限于静态场景的导航和视图合成,缺乏具身交互能力。
  2. DWM通过场景和动作条件下的视频扩散模型,生成逼真的人与场景交互视频,实现动态变化建模。
  3. 混合数据集结合了合成数据的精确监督和真实数据的多样性,提升了模型泛化能力和真实感。

📝 摘要(中文)

本文提出灵巧世界模型(DWM),这是一个场景-动作条件下的视频扩散框架,用于建模灵巧的人类动作如何引起静态3D场景中的动态变化。给定静态3D场景渲染和以自我为中心的手部运动序列,DWM生成时间上连贯的视频,描绘合理的人与场景交互。该方法通过以下方式调节视频生成:(1)遵循指定相机轨迹的静态场景渲染,以确保空间一致性;(2)以自我为中心的手部网格渲染,编码几何和运动线索,以直接建模动作条件下的动态。为了训练DWM,构建了一个混合交互视频数据集。合成的以自我为中心的交互为联合运动和操作学习提供完全对齐的监督,而固定相机的真实世界视频则贡献了多样且逼真的对象动态。实验表明,DWM能够实现逼真且物理上合理的交互,例如抓取、打开和移动对象,同时保持相机和场景一致性。该框架代表了基于视频扩散的交互式数字孪生的第一步,并实现了来自以自我为中心动作的具身模拟。

🔬 方法详解

问题定义:现有数字孪生技术无法模拟人类与环境的交互,缺乏对物理世界的动态理解。现有方法难以生成逼真、连贯且与人类动作相关的场景变化视频,限制了数字孪生的应用范围。

核心思路:DWM的核心在于利用视频扩散模型,将静态3D场景和人类动作序列作为条件,生成动态的交互视频。通过将场景和动作信息融入扩散过程,模型能够学习到人类动作如何影响场景中的物体,从而生成逼真的交互效果。

技术框架:DWM的整体框架包含以下几个主要模块:1) 静态场景渲染模块:根据给定的相机轨迹渲染静态3D场景。2) 手部运动编码模块:将以自我为中心的手部运动序列编码为手部网格渲染。3) 视频扩散模型:以场景渲染和手部网格渲染作为条件,生成交互视频。训练过程中,使用混合数据集进行监督,包括合成数据和真实数据。

关键创新:DWM的关键创新在于将视频扩散模型与场景和动作条件相结合,实现了对交互式场景动态的建模。与传统的视频生成方法相比,DWM能够更好地控制生成视频的内容和风格,并生成与人类动作相关的逼真场景变化。此外,混合数据集的构建也为模型的训练提供了更全面的监督信息。

关键设计:DWM使用U-Net结构的视频扩散模型,并引入了注意力机制来融合场景和动作信息。损失函数包括L1损失和感知损失,以保证生成视频的质量和真实感。在混合数据集的构建中,对合成数据和真实数据进行了加权,以平衡两者的贡献。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DWM能够生成逼真且物理上合理的交互视频,例如抓取、打开和移动物体。与基线方法相比,DWM在生成视频的质量、连贯性和真实感方面均有显著提升。用户研究表明,DWM生成的视频更符合人类的直觉,更具吸引力。

🎯 应用场景

DWM可应用于虚拟现实、游戏开发、机器人仿真等领域。例如,可以用于创建更逼真的虚拟环境,允许用户与虚拟物体进行交互。在机器人仿真中,DWM可以帮助机器人学习如何与环境进行交互,从而提高机器人的自主性和适应性。此外,DWM还可以用于生成训练数据,用于训练其他机器学习模型。

📄 摘要(原文)

Recent progress in 3D reconstruction has made it easy to create realistic digital twins from everyday environments. However, current digital twins remain largely static and are limited to navigation and view synthesis without embodied interactivity. To bridge this gap, we introduce Dexterous World Model (DWM), a scene-action-conditioned video diffusion framework that models how dexterous human actions induce dynamic changes in static 3D scenes. Given a static 3D scene rendering and an egocentric hand motion sequence, DWM generates temporally coherent videos depicting plausible human-scene interactions. Our approach conditions video generation on (1) static scene renderings following a specified camera trajectory to ensure spatial consistency, and (2) egocentric hand mesh renderings that encode both geometry and motion cues to model action-conditioned dynamics directly. To train DWM, we construct a hybrid interaction video dataset. Synthetic egocentric interactions provide fully aligned supervision for joint locomotion and manipulation learning, while fixed-camera real-world videos contribute diverse and realistic object dynamics. Experiments demonstrate that DWM enables realistic and physically plausible interactions, such as grasping, opening, and moving objects, while maintaining camera and scene consistency. This framework represents a first step toward video diffusion-based interactive digital twins and enables embodied simulation from egocentric actions.