On the Value of Tokeniser Pretraining in Physics Foundation Models

📄 arXiv: 2603.05598v1 📥 PDF

作者: Hadi Sotoudeh, Payel Mukhopadhyay, Ruben Ohana, Michael McCabe, Neil D. Lawrence, Shirley Ho, Miles Cranmer

分类: cs.LG, astro-ph.IM, cs.AI, physics.comp-ph

发布日期: 2026-03-05

备注: 16 pages, 4 figures. Workshop paper at ICLR 2026 AI & PDE


💡 一句话要点

提出物理基础模型Tokeniser预训练方法,提升物理模拟精度和效率。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 物理基础模型 Tokeniser预训练 物理模拟 自编码器 时空数据

📋 核心要点

  1. 现有物理基础模型同时学习数据表示和动力学,效率较低。
  2. 提出Tokeniser预训练方法,先学习数据表示,再训练动力学模型。
  3. 同领域预训练可显著提升下游任务效率,VRMSE降低64%(10500步)。

📝 摘要(中文)

本文研究了Tokeniser预训练对物理模拟的准确性和效率的影响。现代高分辨率模拟产生大量数据,涵盖不同的物理状态和尺度。训练基础模型学习这些数据背后的动力学,能够对复杂的多物理场现象进行建模,尤其是在数据受限的情况下。新兴的物理基础模型通常旨在共同学习两个任务:(i)提取高分辨率时空数据的紧凑表示,以及(ii)捕获控制物理动力学。然而,同时从头开始学习这两个任务会阻碍任何一个过程的有效性。我们证明,在训练动力学模型之前,使用自编码目标预训练Tokeniser可以提高下游任务的计算效率。值得注意的是,这种收益的大小取决于领域对齐:与下游任务相同的物理系统上的预训练产生最大的改进,而其他系统上的预训练提供适度的收益。与从头开始训练相比,领域内预训练在10,500个训练步骤后将VRMSE降低了64%。据我们所知,这是对物理基础模型Tokeniser预训练的首次系统研究。我们进一步引入了灵活的时空压缩操作,扩展了因果卷积以支持运行时可调的压缩比,从而能够有效地适应不同的下游任务。我们的发现为训练高效的物理模拟器提供了实践指导,并强调了战略性预训练数据选择的重要性。

🔬 方法详解

问题定义:论文旨在解决物理基础模型训练过程中,同时学习数据表示和物理动力学导致效率低下的问题。现有方法通常从头开始训练整个模型,这使得模型难以有效地学习到高质量的数据表示,从而影响了下游物理模拟的精度和效率。

核心思路:论文的核心思路是将数据表示学习和物理动力学学习解耦。具体来说,首先使用自编码目标预训练Tokeniser,使其能够有效地将高分辨率时空数据压缩成紧凑的表示。然后,利用预训练好的Tokeniser,训练动力学模型来学习物理规律。这种解耦的方式可以使模型更加专注于学习物理动力学,从而提高训练效率和模拟精度。

技术框架:整体框架包含两个主要阶段:Tokeniser预训练和动力学模型训练。在Tokeniser预训练阶段,使用自编码器结构,将高分辨率时空数据作为输入,训练Tokeniser学习数据的紧凑表示。在动力学模型训练阶段,首先使用预训练好的Tokeniser将输入数据编码成紧凑表示,然后将这些表示输入到动力学模型中,学习物理规律。动力学模型可以是任何能够学习时序数据的模型,例如Transformer或卷积神经网络。

关键创新:论文的关键创新在于提出了Tokeniser预训练的方法,并证明了其在物理基础模型中的有效性。此外,论文还引入了灵活的时空压缩操作,扩展了因果卷积以支持运行时可调的压缩比,从而能够有效地适应不同的下游任务。这是首次对物理基础模型的Tokeniser预训练进行系统研究。

关键设计:Tokeniser采用自编码器结构,损失函数为重构误差。动力学模型可以使用Transformer或卷积神经网络。论文还提出了可调节压缩比的时空压缩操作,允许根据下游任务的需求调整压缩程度。预训练数据选择至关重要,同领域预训练效果最佳。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在同领域数据上进行Tokeniser预训练后,物理模拟的VRMSE降低了64%(在10,500个训练步骤后),显著提升了训练效率和模拟精度。此外,研究还发现,即使在不同物理系统上进行预训练,也能带来一定的性能提升,表明该方法的泛化能力。

🎯 应用场景

该研究成果可应用于各种物理模拟领域,例如流体动力学、气候模拟、天体物理学等。通过提高物理模拟的精度和效率,可以加速科学发现,优化工程设计,并更好地理解复杂物理现象。该方法在数据受限场景下尤为有效,降低了对大规模数据集的依赖。

📄 摘要(原文)

We investigate the impact of tokeniser pretraining on the accuracy and efficiency of physics emulation. Modern high-resolution simulations produce vast volumes of data spanning diverse physical regimes and scales. Training foundation models to learn the dynamics underlying such data enables the modelling of complex multiphysics phenomena, especially in data-limited settings. The emerging class of physics foundation models typically aims to learn two tasks jointly: (i) extracting compact representations of high-resolution spatiotemporal data, and (ii) capturing governing physical dynamics. However, learning both tasks from scratch simultaneously can impede the effectiveness of either process. We demonstrate that pretraining the tokeniser with an autoencoding objective prior to training the dynamics model enhances computational efficiency for downstream tasks. Notably, the magnitude of this benefit depends on domain alignment: pretraining on the same physical system as the downstream task yields the largest improvements, while pretraining on other systems provides moderate gains. In-domain pretraining reduces VRMSE by 64% after 10,500 training steps compared to training from scratch. To our knowledge, this is the first systematic investigation of tokeniser pretraining for physics foundation models. We further introduce flexible spatiotemporal compression operations that extend causal convolutions to support runtime-adjustable compression ratios, enabling efficient adaptation to diverse downstream tasks. Our findings provide practical guidance for training efficient physics emulators and highlight the importance of strategic pretraining data selection.