Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis

作者: Hila Chefer, Patrick Esser, Dominik Lorenz, Dustin Podell, Vikash Raja, Vinh Tong, Antonio Torralba, Robin Rombach

分类: cs.CV

发布日期: 2026-03-06

备注: project webpage: https://bfl.ai/research/self-flow

💡 一句话要点

提出Self-Flow自监督流匹配，提升多模态合成的可扩展性和生成质量。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 自监督学习 流匹配 多模态合成 生成模型 表示学习

📋 核心要点

现有生成模型依赖外部模型学习语义表示，导致训练目标不一致和缩放性问题。
Self-Flow通过双时间步调度，在生成框架内自监督地学习语义表示，无需外部模型。
实验表明，Self-Flow在图像、视频和音频生成方面表现出色，并具有良好的多模态扩展性。

📝 摘要（中文）

强大的语义表示能够提升扩散模型和流模型的收敛性和生成质量。现有方法主要依赖于外部模型，这些模型需要单独训练，目标不一致，并且表现出不可预测的缩放行为。我们认为这种依赖性源于模型的训练目标，该目标提出了一个去噪任务，几乎没有激励去学习语义表示。我们引入了Self-Flow：一种自监督流匹配范式，它将表示学习集成到生成框架中。我们的关键机制，双时间步调度，在tokens上应用不同的噪声水平，从而创建信息不对称，迫使模型从损坏的输入中推断缺失的信息。这驱动了在没有外部监督的情况下学习强大的表示以及生成能力。我们的方法可以推广到各种模态，并支持多模态训练，同时遵循预期的缩放规律，从而实现卓越的图像、视频和音频生成。

🔬 方法详解

问题定义：现有生成模型，如扩散模型和流模型，在生成高质量内容时依赖于外部预训练的语义表示模型。这些外部模型需要单独训练，其训练目标与生成模型的目标不一致，导致优化困难和性能瓶颈。此外，这些外部模型在扩展到新的模态或更大规模的数据集时，表现出不可预测的缩放行为，限制了生成模型的能力。

核心思路：Self-Flow的核心思想是在生成模型的训练过程中，同时学习高质量的语义表示，而无需依赖外部模型。通过引入信息不对称，迫使模型从部分损坏的输入中推断出完整的信息，从而驱动模型学习输入数据内在的语义结构。这种自监督的方式避免了外部模型带来的目标不一致和缩放性问题。

技术框架：Self-Flow基于流匹配框架，其整体架构包括一个生成网络和一个双时间步调度机制。生成网络负责将噪声数据转换为目标数据。双时间步调度机制是Self-Flow的关键组成部分，它对输入数据的不同部分施加不同程度的噪声。具体来说，一部分tokens被施加较低的噪声水平，而另一部分tokens被施加较高的噪声水平。这种信息不对称迫使模型利用低噪声tokens的信息来恢复高噪声tokens的信息。

关键创新：Self-Flow最重要的创新点在于其自监督的表示学习方式。与依赖外部模型的方法不同，Self-Flow将表示学习集成到生成框架中，通过双时间步调度机制，在训练生成模型的同时学习高质量的语义表示。这种自监督的方式避免了外部模型带来的目标不一致和缩放性问题，并提高了生成模型的性能。

关键设计：双时间步调度是Self-Flow的关键设计。具体来说，对于每个输入样本，Self-Flow随机选择一部分tokens，并对这些tokens施加较低的噪声水平。对剩余的tokens施加较高的噪声水平。噪声水平的选择可以通过一个超参数来控制。损失函数采用标准的流匹配损失，鼓励模型学习一个将噪声数据转换为目标数据的向量场。网络结构可以采用各种常见的生成模型结构，如U-Net或Transformer。

📊 实验亮点

Self-Flow在图像、视频和音频生成任务上均取得了显著的性能提升。例如，在图像生成任务上，Self-Flow生成的图像质量优于现有的基于外部模型的生成模型。在视频生成任务上，Self-Flow能够生成更连贯、更逼真的视频内容。在音频生成任务上，Self-Flow能够生成更高质量的音频样本。此外，Self-Flow还展示了良好的多模态扩展性，能够有效地融合不同模态的信息。

🎯 应用场景

Self-Flow具有广泛的应用前景，包括图像、视频和音频生成，以及多模态内容合成。它可以用于创建逼真的图像和视频，生成高质量的音频内容，以及将不同模态的信息融合在一起，创造出全新的多媒体体验。此外，Self-Flow还可以应用于数据增强、表示学习和异常检测等领域。

📄 摘要（原文）

Strong semantic representations improve the convergence and generation quality of diffusion and flow models. Existing approaches largely rely on external models, which require separate training, operate on misaligned objectives, and exhibit unexpected scaling behavior. We argue that this dependence arises from the model's training objective, which poses a denoising task with little incentive to learn semantic representations. We introduce Self-Flow: a self-supervised flow matching paradigm that integrates representation learning within the generative framework. Our key mechanism, Dual-Timestep Scheduling, applies heterogeneous noise levels across tokens, creating an information asymmetry that forces the model to infer missing information from corrupted inputs. This drives learning strong representations alongside generative capabilities without external supervision. Our method generalizes across modalities and enables multi-modal training while following expected scaling laws, achieving superior image, video, and audio generation.

Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理