WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

📄 arXiv: 2603.06331v1 📥 PDF

作者: Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu

分类: cs.CV

发布日期: 2026-03-06

🔗 代码/项目: GITHUB


💡 一句话要点

提出WorldCache以解决扩散模型推理效率低下问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 扩散模型 世界模型 推理加速 异质令牌 自适应跳过 多模态融合 资源优化

📋 核心要点

  1. 现有的扩散模型在推理过程中计算成本高,限制了其在交互式和长时间预测中的应用。
  2. 提出WorldCache框架,通过曲率引导的异质令牌预测和混沌优先自适应跳过策略来加速推理过程。
  3. 实验结果表明,WorldCache在保持98%预测质量的同时,实现了最高3.7倍的速度提升。

📝 摘要(中文)

基于扩散的世界模型在统一世界模拟中展现出强大的潜力,但迭代去噪的计算成本过高,限制了其在交互式应用和长时间预测中的使用。现有的单模态扩散策略在世界模型中效果不佳,主要由于多模态耦合和空间变化导致的令牌异质性,以及少数难处理令牌驱动的非均匀时间动态。为此,本文提出了WorldCache,一个专为扩散世界模型设计的缓存框架。通过引入基于物理的曲率评分进行异质令牌预测,并设计了混沌优先的自适应跳过策略,WorldCache在保持高质量的同时实现了高达3.7倍的端到端加速,展示了其在资源受限场景中的巨大优势和实用性。

🔬 方法详解

问题定义:本文旨在解决扩散模型在推理过程中的高计算成本问题。现有的单模态扩散策略在多模态世界模型中表现不佳,主要由于令牌异质性和非均匀时间动态导致的推理效率低下。

核心思路:论文提出的WorldCache框架通过引入曲率评分来评估令牌的可预测性,并针对混沌令牌设计了Hermite引导的阻尼预测器,以提高推理效率。

技术框架:WorldCache的整体架构包括两个主要模块:曲率引导的异质令牌预测和混沌优先的自适应跳过策略。前者用于预测不同类型令牌的行为,后者则在令牌开始漂移时重新计算,以减少不必要的计算。

关键创新:最重要的创新在于结合了物理基础的曲率评分与混沌令牌的处理策略,使得WorldCache能够有效应对多模态耦合和空间变化带来的挑战,与传统方法相比具有显著优势。

关键设计:在设计中,曲率评分用于评估令牌的可预测性,混沌优先策略则通过累积归一化的漂移信号来优化计算过程,确保在关键时刻进行必要的计算,避免了均匀跳过带来的不稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,WorldCache在扩散世界模型上实现了最高3.7倍的端到端加速,同时保持了98%的预测质量。这一显著提升表明WorldCache在资源受限场景中的广泛适用性和实用性。

🎯 应用场景

该研究的潜在应用领域包括虚拟现实、游戏开发和机器人导航等场景,能够显著提升这些领域中基于扩散模型的实时交互能力。通过提高推理效率,WorldCache将推动更复杂和动态环境的模拟与控制,具有重要的实际价值和未来影响。

📄 摘要(原文)

Diffusion-based world models have shown strong potential for unified world simulation, but the iterative denoising remains too costly for interactive use and long-horizon rollouts. While feature caching can accelerate inference without training, we find that policies designed for single-modal diffusion transfer poorly to world models due to two world-model-specific obstacles: \emph{token heterogeneity} from multi-modal coupling and spatial variation, and \emph{non-uniform temporal dynamics} where a small set of hard tokens drives error growth, making uniform skipping either unstable or overly conservative. We propose \textbf{WorldCache}, a caching framework tailored to diffusion world models. We introduce \textit{Curvature-guided Heterogeneous Token Prediction}, which uses a physics-grounded curvature score to estimate token predictability and applies a Hermite-guided damped predictor for chaotic tokens with abrupt direction changes. We also design \textit{Chaotic-prioritized Adaptive Skipping}, which accumulates a curvature-normalized, dimensionless drift signal and recomputes only when bottleneck tokens begin to drift. Experiments on diffusion world models show that WorldCache delivers up to \textbf{3.7$\times$} end-to-end speedups while maintaining \textbf{98\%} rollout quality, demonstrating the vast advantages and practicality of WorldCache in resource-constrained scenarios. Our code is released in https://github.com/FofGofx/WorldCache.