BAgger: Backwards Aggregation for Mitigating Drift in Autoregressive Video Diffusion Models

作者: Ryan Po, Eric Ryan Chan, Changan Chen, Gordon Wetzstein

分类: cs.CV, cs.LG

发布日期: 2025-12-12

备注: Project page here: https://ryanpo.com/bagger

💡 一句话要点

提出BAgger，通过反向聚合缓解自回归视频扩散模型中的漂移问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 自回归视频模型 视频生成 暴露偏差 反向聚合 自监督学习

📋 核心要点

自回归视频模型易受暴露偏差影响，导致推理时误差累积和质量漂移。
BAgger通过自监督的反向聚合，从模型自身rollout构建校正轨迹，训练模型从错误中恢复。
BAgger在文本到视频、视频扩展和多提示生成任务上，实现了更稳定的长时程运动和更好的视觉一致性。

📝 摘要（中文）

自回归视频模型在通过下一帧预测进行世界建模方面展现出潜力，但它们受到暴露偏差的影响：即在干净上下文上训练与在自生成帧上推理之间的不匹配，导致误差随时间累积，质量逐渐漂移。我们引入了反向聚合（BAgger），这是一种自监督方案，它从模型自身的 rollout 中构建校正轨迹，从而教会模型从错误中恢复。与依赖于少步蒸馏和分布匹配损失（可能损害质量和多样性）的先前方法不同，BAgger 使用标准的分数或流匹配目标进行训练，避免了大型教师模型和通过时间的反向传播长链。我们在因果扩散 Transformer 上实例化 BAgger，并在文本到视频、视频扩展和多提示生成方面进行评估，观察到更稳定的长时程运动和更好的视觉一致性，同时减少了漂移。

🔬 方法详解

问题定义：自回归视频模型在进行长时程视频生成时，会面临暴露偏差问题。具体来说，模型在训练时接触的是真实数据，而在推理时，模型需要基于自己生成的帧进行预测，这导致训练和推理阶段的数据分布不一致，误差会随着时间累积，最终导致生成视频的质量下降，出现视觉漂移等问题。现有方法通常依赖于蒸馏训练或分布匹配损失，但这些方法可能会损害生成视频的质量和多样性。

核心思路：BAgger的核心思路是让模型学习从自身产生的错误中恢复。它通过构建“校正轨迹”来实现这一点，这些轨迹是从模型自身的 rollout 中生成的。具体来说，模型首先生成一段视频序列，然后通过某种方式（例如，使用模型自身或另一个模型）来评估生成序列的质量，并识别出错误或不一致的地方。接下来，BAgger会生成一条“反向”轨迹，引导模型从错误状态恢复到更接近真实状态的状态。通过训练模型来遵循这些校正轨迹，BAgger可以有效地减少暴露偏差，并提高生成视频的质量和稳定性。

技术框架：BAgger的整体框架可以概括为以下几个步骤：1. 使用自回归视频模型生成一段视频序列（rollout）。2. 从rollout中采样一些帧，作为需要校正的目标帧。3. 使用模型自身或另一个模型，基于目标帧的未来帧，反向推断出目标帧应该具有的状态（即校正轨迹）。4. 使用标准的分数或流匹配目标，训练模型学习遵循这些校正轨迹。这个过程是自监督的，因为校正轨迹是从模型自身生成的。

关键创新：BAgger的关键创新在于其自监督的反向聚合方法。与需要外部教师模型或复杂的分布匹配损失的现有方法不同，BAgger利用模型自身的rollout来构建校正轨迹，从而避免了对额外资源的依赖，并简化了训练过程。此外，BAgger使用标准的分数或流匹配目标进行训练，避免了对模型结构进行修改，使其可以很容易地应用于各种自回归视频模型。

关键设计：BAgger的关键设计包括：1. 如何生成校正轨迹：论文中使用了模型自身来生成校正轨迹，具体来说，给定目标帧的未来帧，模型会尝试反向推断出目标帧应该具有的状态。2. 如何选择目标帧：论文中随机选择rollout中的一些帧作为目标帧。3. 损失函数：论文中使用标准的分数或流匹配目标来训练模型学习遵循校正轨迹。具体来说，模型需要预测从目标帧到校正轨迹的噪声。

📊 实验亮点

实验结果表明，BAgger 在文本到视频生成、视频扩展和多提示生成任务上都取得了显著的改进。例如，在视频扩展任务中，BAgger 能够生成更长、更稳定的视频序列，视觉质量明显优于基线方法。此外，BAgger 还能够减少生成视频中的漂移现象，提高视觉一致性。定量指标和定性结果都表明，BAgger 是一种有效的缓解自回归视频模型漂移问题的方法。

🎯 应用场景

BAgger 有潜力应用于各种视频生成和编辑任务，例如文本到视频生成、视频扩展、视频修复和风格迁移。通过减少自回归模型中的漂移问题，BAgger 可以生成更长、更逼真、更稳定的视频序列，从而提高用户体验和创造力。此外，BAgger 的自监督特性使其可以很容易地应用于各种数据集和模型架构，具有广泛的应用前景。

📄 摘要（原文）

Autoregressive video models are promising for world modeling via next-frame prediction, but they suffer from exposure bias: a mismatch between training on clean contexts and inference on self-generated frames, causing errors to compound and quality to drift over time. We introduce Backwards Aggregation (BAgger), a self-supervised scheme that constructs corrective trajectories from the model's own rollouts, teaching it to recover from its mistakes. Unlike prior approaches that rely on few-step distillation and distribution-matching losses, which can hurt quality and diversity, BAgger trains with standard score or flow matching objectives, avoiding large teachers and long-chain backpropagation through time. We instantiate BAgger on causal diffusion transformers and evaluate on text-to-video, video extension, and multi-prompt generation, observing more stable long-horizon motion and better visual consistency with reduced drift.

BAgger: Backwards Aggregation for Mitigating Drift in Autoregressive Video Diffusion Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册