BAgger: Backwards Aggregation for Mitigating Drift in Autoregressive Video Diffusion Models
作者: Ryan Po, Eric Ryan Chan, Changan Chen, Gordon Wetzstein
分类: cs.CV, cs.LG
发布日期: 2025-12-12
备注: Project page here: https://ryanpo.com/bagger
💡 一句话要点
提出BAgger,通过反向聚合缓解自回归视频扩散模型中的漂移问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自回归视频模型 视频生成 暴露偏差 反向聚合 自监督学习
📋 核心要点
- 自回归视频模型易受暴露偏差影响,导致推理时误差累积和质量漂移。
- BAgger通过自监督的反向聚合,从模型自身rollout构建校正轨迹,训练模型从错误中恢复。
- BAgger在文本到视频、视频扩展和多提示生成任务上,实现了更稳定的长时程运动和更好的视觉一致性。
📝 摘要(中文)
自回归视频模型在通过下一帧预测进行世界建模方面展现出潜力,但它们受到暴露偏差的影响:即在干净上下文上训练与在自生成帧上推理之间的不匹配,导致误差随时间累积,质量逐渐漂移。我们引入了反向聚合(BAgger),这是一种自监督方案,它从模型自身的 rollout 中构建校正轨迹,从而教会模型从错误中恢复。与依赖于少步蒸馏和分布匹配损失(可能损害质量和多样性)的先前方法不同,BAgger 使用标准的分数或流匹配目标进行训练,避免了大型教师模型和通过时间的反向传播长链。我们在因果扩散 Transformer 上实例化 BAgger,并在文本到视频、视频扩展和多提示生成方面进行评估,观察到更稳定的长时程运动和更好的视觉一致性,同时减少了漂移。
🔬 方法详解
问题定义:自回归视频模型在进行长时程视频生成时,会面临暴露偏差问题。具体来说,模型在训练时接触的是真实数据,而在推理时,模型需要基于自己生成的帧进行预测,这导致训练和推理阶段的数据分布不一致,误差会随着时间累积,最终导致生成视频的质量下降,出现视觉漂移等问题。现有方法通常依赖于蒸馏训练或分布匹配损失,但这些方法可能会损害生成视频的质量和多样性。
核心思路:BAgger的核心思路是让模型学习从自身产生的错误中恢复。它通过构建“校正轨迹”来实现这一点,这些轨迹是从模型自身的 rollout 中生成的。具体来说,模型首先生成一段视频序列,然后通过某种方式(例如,使用模型自身或另一个模型)来评估生成序列的质量,并识别出错误或不一致的地方。接下来,BAgger会生成一条“反向”轨迹,引导模型从错误状态恢复到更接近真实状态的状态。通过训练模型来遵循这些校正轨迹,BAgger可以有效地减少暴露偏差,并提高生成视频的质量和稳定性。
技术框架:BAgger的整体框架可以概括为以下几个步骤:1. 使用自回归视频模型生成一段视频序列(rollout)。2. 从rollout中采样一些帧,作为需要校正的目标帧。3. 使用模型自身或另一个模型,基于目标帧的未来帧,反向推断出目标帧应该具有的状态(即校正轨迹)。4. 使用标准的分数或流匹配目标,训练模型学习遵循这些校正轨迹。这个过程是自监督的,因为校正轨迹是从模型自身生成的。
关键创新:BAgger的关键创新在于其自监督的反向聚合方法。与需要外部教师模型或复杂的分布匹配损失的现有方法不同,BAgger利用模型自身的rollout来构建校正轨迹,从而避免了对额外资源的依赖,并简化了训练过程。此外,BAgger使用标准的分数或流匹配目标进行训练,避免了对模型结构进行修改,使其可以很容易地应用于各种自回归视频模型。
关键设计:BAgger的关键设计包括:1. 如何生成校正轨迹:论文中使用了模型自身来生成校正轨迹,具体来说,给定目标帧的未来帧,模型会尝试反向推断出目标帧应该具有的状态。2. 如何选择目标帧:论文中随机选择rollout中的一些帧作为目标帧。3. 损失函数:论文中使用标准的分数或流匹配目标来训练模型学习遵循校正轨迹。具体来说,模型需要预测从目标帧到校正轨迹的噪声。
📊 实验亮点
实验结果表明,BAgger 在文本到视频生成、视频扩展和多提示生成任务上都取得了显著的改进。例如,在视频扩展任务中,BAgger 能够生成更长、更稳定的视频序列,视觉质量明显优于基线方法。此外,BAgger 还能够减少生成视频中的漂移现象,提高视觉一致性。定量指标和定性结果都表明,BAgger 是一种有效的缓解自回归视频模型漂移问题的方法。
🎯 应用场景
BAgger 有潜力应用于各种视频生成和编辑任务,例如文本到视频生成、视频扩展、视频修复和风格迁移。通过减少自回归模型中的漂移问题,BAgger 可以生成更长、更逼真、更稳定的视频序列,从而提高用户体验和创造力。此外,BAgger 的自监督特性使其可以很容易地应用于各种数据集和模型架构,具有广泛的应用前景。
📄 摘要(原文)
Autoregressive video models are promising for world modeling via next-frame prediction, but they suffer from exposure bias: a mismatch between training on clean contexts and inference on self-generated frames, causing errors to compound and quality to drift over time. We introduce Backwards Aggregation (BAgger), a self-supervised scheme that constructs corrective trajectories from the model's own rollouts, teaching it to recover from its mistakes. Unlike prior approaches that rely on few-step distillation and distribution-matching losses, which can hurt quality and diversity, BAgger trains with standard score or flow matching objectives, avoiding large teachers and long-chain backpropagation through time. We instantiate BAgger on causal diffusion transformers and evaluate on text-to-video, video extension, and multi-prompt generation, observing more stable long-horizon motion and better visual consistency with reduced drift.