Contrastive-SDE: Guiding Stochastic Differential Equations with Contrastive Learning for Unpaired Image-to-Image Translation

📄 arXiv: 2510.03821v1 📥 PDF

作者: Venkata Narendra Kotyada, Revanth Eranki, Nagesh Bhattu Sristy

分类: cs.CV

发布日期: 2025-10-04

备注: 9 pages, 3 figures


💡 一句话要点

提出Contrastive-SDE,利用对比学习引导随机微分方程,解决非配对图像转换问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 非配对图像转换 对比学习 随机微分方程 图像生成 域不变特征

📋 核心要点

  1. 非配对图像转换任务缺乏对齐样本,现有方法难以在保持内容一致性的同时实现有效的风格迁移。
  2. Contrastive-SDE利用对比学习,将图像及其域不变特征作为正样本对,引导SDE的推理过程,从而保留内容信息。
  3. 实验表明,该方法在多个非配对图像转换任务上取得了与SOTA相当的结果,且收敛速度更快,无需额外监督。

📝 摘要(中文)

非配对图像到图像转换旨在学习源域和目标域之间的映射,而无需对齐或对应的样本。基于分数的扩散模型在生成任务中表现出最先进的性能。它们通过随机微分方程(SDE)逼近复杂数据分布的能力,使其能够生成高保真和多样化的输出,特别适合非配对I2I设置。同时,对比学习提供了一个强大的框架,用于在没有显式监督或配对数据的情况下学习语义相似性。通过将语义相似样本的表示拉近,并将不相似样本的表示推远,对比方法本质上与非配对转换的目标一致。其在特征级别选择性地强制语义一致性的能力,使得对比学习对于引导非配对场景中的生成特别有效。本文提出了一种时间相关的对比学习方法,其中模型通过SimCLR进行训练,将图像及其域不变特征视为正样本对,从而能够保留域不变特征并丢弃特定于域的特征。然后,学习到的对比模型引导预训练SDE的推理,用于I2I转换任务。我们通过三个常见的非配对I2I任务,使用四个指标进行评估,将Contrastive-SDE与多个基线进行实证比较。Constrastive-SDE在多个指标上取得了与最先进技术相当的结果。此外,我们观察到我们的模型收敛速度明显更快,并且不需要标签监督或分类器训练,使其成为此任务的更有效替代方案。

🔬 方法详解

问题定义:论文旨在解决非配对图像到图像转换的问题。现有方法,如GANs,在非配对场景下训练不稳定,且难以保证生成图像的内容一致性。基于扩散模型的方法虽然能生成高质量图像,但缺乏对语义信息的有效控制,导致转换效果不佳。

核心思路:论文的核心思路是利用对比学习来引导随机微分方程(SDE)的推理过程。通过对比学习,模型能够学习到图像的域不变特征,这些特征代表了图像的内容信息。然后,利用这些域不变特征来指导SDE的生成过程,从而在风格迁移的同时,保持图像的内容一致性。

技术框架:Contrastive-SDE的整体框架包含两个主要阶段:对比学习阶段和SDE引导阶段。在对比学习阶段,使用SimCLR框架训练一个对比学习模型,该模型将图像及其域不变特征视为正样本对,从而学习到域不变特征的表示。在SDE引导阶段,使用预训练的SDE模型进行图像生成,并利用对比学习模型提取的域不变特征来引导SDE的推理过程。

关键创新:该方法最重要的创新点在于将对比学习与SDE相结合,利用对比学习提取的域不变特征来引导SDE的生成过程。这种方法能够在风格迁移的同时,有效地保持图像的内容一致性,解决了现有方法在非配对图像转换任务中的痛点。

关键设计:在对比学习阶段,使用了SimCLR框架,并对损失函数进行了修改,以适应非配对图像转换任务。具体来说,将图像及其域不变特征视为正样本对,并使用InfoNCE损失函数进行训练。在SDE引导阶段,使用预训练的SDE模型,并利用对比学习模型提取的域不变特征来调整SDE的噪声注入过程,从而引导SDE生成具有目标域风格的图像。

📊 实验亮点

实验结果表明,Contrastive-SDE在多个非配对图像转换任务上取得了与SOTA相当的结果。例如,在horse2zebra任务上,Contrastive-SDE在FID指标上取得了与CycleGAN相当的性能,但在内容一致性方面优于CycleGAN。此外,Contrastive-SDE的收敛速度明显快于其他方法,且无需额外的标签监督或分类器训练。

🎯 应用场景

该研究成果可应用于多种图像处理领域,如图像风格迁移、图像修复、图像增强等。例如,可以将风景照片转换为绘画风格,或者将低分辨率图像转换为高分辨率图像。此外,该方法还可以应用于医学图像分析、遥感图像分析等领域,具有广泛的应用前景和实际价值。

📄 摘要(原文)

Unpaired image-to-image translation involves learning mappings between source domain and target domain in the absence of aligned or corresponding samples. Score based diffusion models have demonstrated state-of-the-art performance in generative tasks. Their ability to approximate complex data distributions through stochastic differential equations (SDEs) enables them to generate high-fidelity and diverse outputs, making them particularly well-suited for unpaired I2I settings. In parallel, contrastive learning provides a powerful framework for learning semantic similarities without the need for explicit supervision or paired data. By pulling together representations of semantically similar samples and pushing apart dissimilar ones, contrastive methods are inherently aligned with the objectives of unpaired translation. Its ability to selectively enforce semantic consistency at the feature level makes contrastive learning particularly effective for guiding generation in unpaired scenarios. In this work, we propose a time-dependent contrastive learning approach where a model is trained with SimCLR by considering an image and its domain invarient feature as a positive pair, enabling the preservation of domain-invariant features and the discarding of domain-specific ones. The learned contrastive model then guides the inference of a pretrained SDE for the I2I translation task. We empirically compare Contrastive-SDE with several baselines across three common unpaired I2I tasks, using four metrics for evaluation. Constrastive-SDE achieves comparable results to the state-of-the-art on several metrics. Furthermore, we observe that our model converges significantly faster and requires no label supervision or classifier training, making it a more efficient alternative for this task.