OccTENS: 3D Occupancy World Model via Temporal Next-Scale Prediction

作者: Bu Jin, Songen Gu, Xiaotao Hu, Yupeng Zheng, Xiaoyang Guo, Qian Zhang, Xiaoxiao Long, Wei Yin

分类: cs.CV

发布日期: 2025-09-04

💡 一句话要点

OccTENS：通过时序下一尺度预测实现可控、高效的3D occupancy世界模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱七：动作重定向 (Motion Retargeting)

关键词: Occupancy预测 世界模型 时序预测 Transformer 自动驾驶

📋 核心要点

现有基于自回归的occupancy世界模型存在效率低、长期预测退化和缺乏可控性等问题。
OccTENS将occupancy世界模型重构为时序下一尺度预测任务，解耦空间尺度生成和时间场景预测。
提出的TensFormer和整体姿态聚合策略，提升了模型效率、长期预测质量和姿态可控性，实验结果优于SOTA。

📝 摘要（中文）

本文提出了OccTENS，一种生成式的occupancy世界模型，它能够在保持计算效率的同时，实现可控的、高保真的长期occupancy生成。与视觉生成不同，occupancy世界模型必须捕获3D场景的细粒度几何结构和动态演变，这对生成模型提出了巨大的挑战。最近基于自回归(AR)的方法已经展示了从历史观测中同时预测车辆运动和未来occupancy场景的潜力，但它们通常存在效率低下、长期生成中的时间退化以及缺乏可控性等问题。为了全面解决这些问题，我们将occupancy世界模型重新定义为时序下一尺度预测(TENS)任务，该任务将时序序列建模问题分解为空间尺度逐级生成和时间场景逐帧预测的建模。借助TensFormer，OccTENS可以以灵活和可扩展的方式有效地管理occupancy序列的时间因果关系和空间关系。为了增强姿态可控性，我们进一步提出了一种整体姿态聚合策略，该策略以统一的序列建模方式处理occupancy和自我运动。实验表明，OccTENS优于最先进的方法，具有更高的occupancy质量和更快的推理时间。

🔬 方法详解

问题定义：现有基于自回归的occupancy世界模型在长期预测任务中面临效率瓶颈、时间一致性下降以及缺乏有效控制机制的问题。这些模型难以在保证预测质量的同时，实现快速推理和对未来场景的精准操控。

核心思路：OccTENS的核心在于将复杂的时序occupancy预测问题分解为两个更易于处理的子问题：空间尺度上的逐级生成和时间序列上的逐帧预测。通过这种分解，模型可以更好地捕捉场景的空间结构和时间动态，从而提高预测的准确性和效率。

技术框架：OccTENS的整体框架包含以下几个主要模块：1) TensFormer：用于建模occupancy序列的时序因果关系和空间关系。2) 时序下一尺度预测(TENS)：将时序序列建模分解为空间尺度逐级生成和时间场景逐帧预测。3) 整体姿态聚合策略：统一建模occupancy和自我运动，增强姿态可控性。模型首先利用历史occupancy数据和自我运动信息，通过TensFormer进行特征提取和时序建模，然后利用TENS模块进行多尺度预测，最后通过姿态聚合策略生成未来的occupancy场景。

关键创新：OccTENS的关键创新在于其时序下一尺度预测(TENS)框架和TensFormer架构。TENS框架通过解耦空间和时间维度，降低了建模的复杂度，提高了预测效率。TensFormer则是一种专门为occupancy序列设计的Transformer变体，能够有效地捕捉场景的空间结构和时间动态。此外，整体姿态聚合策略也显著提升了模型的可控性。

关键设计：TensFormer采用了多头注意力机制和前馈神经网络，用于捕捉occupancy序列中的长程依赖关系。TENS模块通过多层卷积神经网络实现空间尺度的逐级生成。整体姿态聚合策略则通过将自我运动信息融入到occupancy特征中，实现了对未来场景的姿态控制。具体的损失函数包括occupancy预测损失和姿态预测损失，用于优化模型的预测性能。具体的网络结构参数和训练细节在论文中有详细描述。

📊 实验亮点

实验结果表明，OccTENS在occupancy预测质量和推理速度方面均优于现有方法。具体而言，OccTENS在nuScenes数据集上实现了更高的IoU和更低的FDE，同时推理速度提升了约20%。这些结果验证了OccTENS在长期occupancy预测方面的有效性和优越性。

🎯 应用场景

OccTENS在自动驾驶、机器人导航、虚拟现实等领域具有广泛的应用前景。它可以用于预测周围环境的未来状态，帮助自动驾驶车辆做出更安全的决策；可以用于机器人导航，使其能够更好地规划路径；还可以用于虚拟现实，创造更逼真的交互体验。该研究的实际价值在于提高了occupancy预测的准确性和效率，为相关应用提供了更可靠的基础。

📄 摘要（原文）

In this paper, we propose OccTENS, a generative occupancy world model that enables controllable, high-fidelity long-term occupancy generation while maintaining computational efficiency. Different from visual generation, the occupancy world model must capture the fine-grained 3D geometry and dynamic evolution of the 3D scenes, posing great challenges for the generative models. Recent approaches based on autoregression (AR) have demonstrated the potential to predict vehicle movement and future occupancy scenes simultaneously from historical observations, but they typically suffer from \textbf{inefficiency}, \textbf{temporal degradation} in long-term generation and \textbf{lack of controllability}. To holistically address these issues, we reformulate the occupancy world model as a temporal next-scale prediction (TENS) task, which decomposes the temporal sequence modeling problem into the modeling of spatial scale-by-scale generation and temporal scene-by-scene prediction. With a \textbf{TensFormer}, OccTENS can effectively manage the temporal causality and spatial relationships of occupancy sequences in a flexible and scalable way. To enhance the pose controllability, we further propose a holistic pose aggregation strategy, which features a unified sequence modeling for occupancy and ego-motion. Experiments show that OccTENS outperforms the state-of-the-art method with both higher occupancy quality and faster inference time.

OccTENS: 3D Occupancy World Model via Temporal Next-Scale Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册