PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis
作者: Chunji Lv, Zequn Chen, Donglin Di, Weinan Zhang, Hao Li, Wei Chen, Yinjie Lei, Changsheng Li
分类: cs.CV
发布日期: 2025-08-19 (更新: 2025-12-19)
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出PhysGM以解决物理基础4D合成中的效率与准确性问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion)
关键词: 物理基础合成 高斯模型 4D渲染 实时仿真 图像理解 深度学习
📋 核心要点
- 现有物理基础的3D运动合成方法依赖于耗时的场景优化和不灵活的属性指定,导致效率低下。
- PhysGM通过从单张图像中联合预测3D高斯表示和物理属性,提供了一种前馈框架,简化了仿真过程。
- 实验结果显示,PhysGM在一分钟内生成高保真4D仿真,相较于之前的方法显著提升了速度和渲染质量。
📝 摘要(中文)
尽管物理基础的3D运动合成已有所进展,但现有方法仍面临关键限制:依赖于从密集多视角图像构建的预重建3D高斯点云,且每个场景的优化耗时;物理集成依赖于不灵活的手动指定属性或不稳定的优化重引导;以及简单拼接预构建的3D高斯点云与物理模块,忽视了外观中嵌入的物理信息,导致性能不佳。为了解决这些问题,本文提出了PhysGM,一个前馈框架,可以从单张图像中共同预测3D高斯表示和物理属性,实现即时仿真和高保真4D渲染。与缓慢的外观无关优化方法不同,我们首先预训练一个物理感知重建模型,直接推断高斯和物理参数,并通过直接偏好优化(DPO)进一步细化模型,使仿真与物理上合理的参考视频对齐,避免高成本的优化。实验表明,PhysGM能够在一分钟内从单张图像生成高保真的4D仿真,显著加快了速度并提供了真实的渲染效果。
🔬 方法详解
问题定义:本文旨在解决现有物理基础4D合成方法中效率低下和优化复杂的问题。现有方法通常依赖于耗时的场景特定优化和不灵活的物理属性指定,导致性能不佳。
核心思路:PhysGM的核心思路是通过一个前馈框架,从单张图像中直接预测3D高斯表示和物理属性,避免了传统方法中的复杂优化过程。
技术框架:PhysGM的整体架构包括两个主要模块:物理感知重建模型和直接偏好优化(DPO)。前者用于推断高斯和物理参数,后者则用于将仿真结果与参考视频对齐。
关键创新:PhysGM的主要创新在于其能够在不依赖于耗时的优化过程下,快速生成高保真的4D仿真。这一方法与传统的优化重引导方法本质上不同,提供了更高的效率和准确性。
关键设计:在模型设计中,采用了物理感知重建网络,结合了特定的损失函数以优化高斯和物理参数的推断,同时在DPO阶段引入了与参考视频的对比损失,以确保仿真结果的物理合理性。
📊 实验亮点
实验结果表明,PhysGM能够在一分钟内从单张图像生成高保真的4D仿真,显著优于现有方法,提升幅度达到数倍,且渲染效果真实可信,具有较高的实用价值。
🎯 应用场景
该研究的潜在应用领域包括虚拟现实、游戏开发和影视特效制作等。PhysGM能够快速生成高保真的4D渲染,极大地提升了内容创作的效率和质量,未来可能在实时仿真和交互式应用中发挥重要作用。
📄 摘要(原文)
Despite advances in physics-based 3D motion synthesis, current methods face key limitations: reliance on pre-reconstructed 3D Gaussian Splatting (3DGS) built from dense multi-view images with time-consuming per-scene optimization; physics integration via either inflexible, hand-specified attributes or unstable, optimization-heavy guidance from video models using Score Distillation Sampling (SDS); and naive concatenation of prebuilt 3DGS with physics modules, which ignores physical information embedded in appearance and yields suboptimal performance. To address these issues, we propose PhysGM, a feed-forward framework that jointly predicts 3D Gaussian representation and physical properties from a single image, enabling immediate simulation and high-fidelity 4D rendering. Unlike slow appearance-agnostic optimization methods, we first pre-train a physics-aware reconstruction model that directly infers both Gaussian and physical parameters. We further refine the model with Direct Preference Optimization (DPO), aligning simulations with the physically plausible reference videos and avoiding the high-cost SDS optimization. To address the absence of a supporting dataset for this task, we propose PhysAssets, a dataset of 50K+ 3D assets annotated with physical properties and corresponding reference videos. Experiments show that PhysGM produces high-fidelity 4D simulations from a single image in one minute, achieving a significant speedup over prior work while delivering realistic renderings.Our project page is at:https://hihixiaolv.github.io/PhysGM.github.io/