Training Flow Matching: The Role of Weighting and Parameterization

📄 arXiv: 2603.06454v1 📥 PDF

作者: Anne Gagneux, Ségolène Martin, Rémi Gribonval, Mathurin Massias

分类: cs.CV

发布日期: 2026-03-06


💡 一句话要点

研究流匹配模型训练目标,分析权重、参数化等因素对生成质量的影响

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 流匹配模型 生成模型 去噪扩散 损失权重 参数化 训练目标 数值实验

📋 核心要点

  1. 现有去噪生成模型训练中,损失权重和输出参数化方式的选择缺乏系统性分析,影响模型性能。
  2. 本文通过数值实验,研究了损失权重、输出参数化等因素与数据维度、模型架构和数据集大小的相互作用。
  3. 实验涵盖合成数据和图像数据,使用PSNR和FID等指标评估不同训练目标,为模型设计提供实用指导。

📝 摘要(中文)

本文研究了基于去噪的生成模型的训练目标,特别关注损失权重和输出参数化,包括基于噪声、干净图像和速度的公式。通过系统的数值研究,我们分析了这些训练选择如何与数据流形的内在维度、模型架构和数据集大小相互作用。我们的实验涵盖了具有受控几何形状的合成数据集以及图像数据,并使用去噪精度(跨噪声水平的PSNR)和生成质量(FID)的定量指标比较了训练目标。我们的目标不是提出一种新方法,而是理清训练流匹配模型时重要的各种因素,以便为设计选择提供实用的见解。

🔬 方法详解

问题定义:论文旨在解决去噪生成模型训练过程中,如何选择合适的损失权重和输出参数化方式以提升模型性能的问题。现有方法缺乏对这些因素与数据特性、模型架构之间关系的系统性研究,导致模型训练效果不稳定,难以达到最优性能。

核心思路:论文的核心思路是通过系统的数值实验,分析不同的损失权重和输出参数化方式对模型性能的影响。通过控制数据集的几何特性、模型架构和数据集大小等变量,研究它们与训练目标之间的相互作用,从而为模型设计提供指导。

技术框架:论文采用实验研究的方法,没有提出新的模型架构。主要流程包括:1)选择不同的损失权重和输出参数化方式;2)在合成数据集和图像数据集上训练模型;3)使用PSNR和FID等指标评估模型的去噪精度和生成质量;4)分析实验结果,总结不同因素对模型性能的影响。

关键创新:论文的主要创新在于对现有流匹配模型的训练目标进行了系统性的分析,而不是提出一种新的模型或算法。通过实验揭示了损失权重、输出参数化等因素与数据特性、模型架构之间的复杂关系,为模型设计提供了新的视角和指导。

关键设计:论文的关键设计在于实验方案的设计,包括:1)选择具有不同几何特性的合成数据集,以便研究数据维度对模型性能的影响;2)使用不同的模型架构,以便研究模型架构对模型性能的影响;3)控制数据集大小,以便研究数据集大小对模型性能的影响;4)使用PSNR和FID等指标对模型性能进行定量评估;5)对实验结果进行统计分析,总结不同因素对模型性能的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验发现,损失权重和输出参数化方式的选择对流匹配模型的性能有显著影响。在合成数据集上,不同参数化方式对模型性能的影响程度不同。在图像数据集上,合适的损失权重可以显著提升模型的生成质量(FID)。实验结果表明,在训练流匹配模型时,需要根据具体的数据集和模型架构选择合适的训练目标。

🎯 应用场景

该研究成果可应用于图像生成、图像修复、语音合成等领域,帮助研究人员和工程师更好地设计和训练去噪生成模型,提升生成质量和效率。通过理解不同训练因素的影响,可以针对特定应用场景选择合适的模型配置,从而获得更好的性能。

📄 摘要(原文)

We study the training objectives of denoising-based generative models, with a particular focus on loss weighting and output parameterization, including noise-, clean image-, and velocity-based formulations. Through a systematic numerical study, we analyze how these training choices interact with the intrinsic dimensionality of the data manifold, model architecture, and dataset size. Our experiments span synthetic datasets with controlled geometry as well as image data, and compare training objectives using quantitative metrics for denoising accuracy (PSNR across noise levels) and generative quality (FID). Rather than proposing a new method, our goal is to disentangle the various factors that matter when training a flow matching model, in order to provide practical insights on design choices.