PhysInOne: Visual Physics Learning and Reasoning in One Suite

📄 arXiv: 2604.09415v1 📥 PDF

作者: Siyuan Zhou, Hejun Wang, Hu Cheng, Jinxi Li, Dongsheng Wang, Junwei Jiang, Yixiao Jin, Jiayue Huang, Shiwei Mao, Shangjia Liu, Yafei Yang, Hongkang Song, Shenxing Wei, Zihui Zhang, Peng Huang, Shijie Liu, Zhengli Hao, Hao Li, Yitian Li, Wenqi Zhou, Zhihan Zhao, Zongqi He, Hongtao Wen, Shouwang Huang, Peng Yun, Bowen Cheng, Pok Kazaf Fu, Wai Kit Lai, Jiahao Chen, Kaiyuan Wang, Zhixuan Sun, Ziqi Li, Haochen Hu, Di Zhang, Chun Ho Yuen, Bing Wang, Zhihua Wang, Chuhang Zou, Bo Yang

分类: cs.CV, cs.AI, cs.LG, cs.RO

发布日期: 2026-04-10

备注: CVPR 2026. Siyuan, Hejun, Hu, Jinxi, Dongsheng, Junwei, Yixiao, Jiayue, and Shiwei are co-first authors. Project page: https://vlar-group.github.io/PhysInOne.html


💡 一句话要点

PhysInOne:构建大规模物理场景数据集,促进AI系统物理推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 物理推理 合成数据集 视频生成 未来帧预测 物理属性估计 运动迁移 具身智能

📋 核心要点

  1. 现有AI系统缺乏足够且多样化的物理场景训练数据,限制了其物理推理能力。
  2. PhysInOne构建了一个大规模合成数据集,包含丰富的物理现象和全面的ground-truth标注,用于训练和评估AI模型。
  3. 实验表明,在PhysInOne上微调的模型在物理感知视频生成、未来帧预测等方面显著提升了物理合理性。

📝 摘要(中文)

本文提出了PhysInOne,一个大规模合成数据集,旨在解决AI系统在物理规律学习中训练数据严重匮乏的问题。与现有仅包含数百或数千个样本的数据集不同,PhysInOne提供了跨越153,810个动态3D场景的200万个视频,涵盖力学、光学、流体动力学和磁学中的71种基本物理现象。与以往工作不同,我们的场景具有复杂背景下的多对象交互,并包含全面的ground-truth标注,包括3D几何、语义、动态运动、物理属性和文本描述。我们展示了PhysInOne在四个新兴应用中的有效性:物理感知视频生成、长/短期未来帧预测、物理属性估计和运动迁移。实验表明,在PhysInOne上微调基础模型可以显著提高物理合理性,同时也暴露了在建模复杂物理动力学和估计内在属性方面的关键差距。作为同类数据集中规模最大的数据集,PhysInOne比以往工作高出几个数量级,为推进生成、模拟和具身AI中基于物理的世界模型建立了一个新的基准。

🔬 方法详解

问题定义:现有AI模型在理解和模拟物理世界时,面临着缺乏足够且高质量的训练数据的挑战。现有的物理模拟数据集通常规模较小,场景简单,缺乏复杂的多物体交互和全面的标注信息,难以支持AI模型学习复杂的物理规律。

核心思路:PhysInOne的核心思路是通过大规模的合成数据生成,提供丰富、多样且带有精确标注的物理场景,从而弥补真实世界数据不足的缺陷。通过控制场景的各种参数,可以系统地探索不同的物理现象和交互,为AI模型提供更全面的学习素材。

技术框架:PhysInOne的整体框架包括以下几个主要阶段:1) 场景生成:使用程序化生成技术创建包含多个物体和复杂背景的3D场景。2) 物理模拟:使用物理引擎模拟场景中的物体运动和交互,生成视频序列。3) 数据标注:自动生成包括3D几何、语义、动态运动、物理属性和文本描述在内的全面标注信息。4) 数据集构建:将生成的视频和标注信息整理成统一的数据集格式。

关键创新:PhysInOne的关键创新在于其数据集的规模和多样性。它比以往的物理模拟数据集大几个数量级,并且涵盖了更广泛的物理现象和更复杂的场景。此外,PhysInOne还提供了全面的ground-truth标注,为AI模型提供了更丰富的学习信息。

关键设计:PhysInOne在场景生成方面采用了程序化生成技术,可以灵活控制场景的各种参数,例如物体数量、形状、材质、初始速度等。在物理模拟方面,使用了成熟的物理引擎,保证了模拟的准确性和效率。在数据标注方面,利用物理引擎的内部状态和渲染结果,自动生成各种标注信息,避免了人工标注的成本和误差。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在PhysInOne上微调的基础模型在物理感知视频生成、长/短期未来帧预测、物理属性估计和运动迁移等任务上都取得了显著的提升。例如,在视频生成任务中,微调后的模型生成的视频在物理合理性方面明显优于未微调的模型。此外,实验还揭示了现有模型在建模复杂物理动力学和估计内在属性方面的不足,为未来的研究方向提供了指导。

🎯 应用场景

PhysInOne数据集可广泛应用于物理感知AI领域,例如视频游戏开发、机器人仿真、自动驾驶等。它可以帮助AI模型更好地理解和预测物理世界的行为,从而提高其在各种任务中的性能。此外,PhysInOne还可以作为评估和比较不同物理模型和算法的基准。

📄 摘要(原文)

We present PhysInOne, a large-scale synthetic dataset addressing the critical scarcity of physically-grounded training data for AI systems. Unlike existing datasets limited to merely hundreds or thousands of examples, PhysInOne provides 2 million videos across 153,810 dynamic 3D scenes, covering 71 basic physical phenomena in mechanics, optics, fluid dynamics, and magnetism. Distinct from previous works, our scenes feature multiobject interactions against complex backgrounds, with comprehensive ground-truth annotations including 3D geometry, semantics, dynamic motion, physical properties, and text descriptions. We demonstrate PhysInOne's efficacy across four emerging applications: physics-aware video generation, long-/short-term future frame prediction, physical property estimation, and motion transfer. Experiments show that fine-tuning foundation models on PhysInOne significantly enhances physical plausibility, while also exposing critical gaps in modeling complex physical dynamics and estimating intrinsic properties. As the largest dataset of its kind, orders of magnitude beyond prior works, PhysInOne establishes a new benchmark for advancing physics-grounded world models in generation, simulation, and embodied AI.