Data-to-Energy Stochastic Dynamics

📄 arXiv: 2509.26364v1 📥 PDF

作者: Kirill Tamogashev, Nikolay Malkin

分类: cs.LG

发布日期: 2025-09-30

🔗 代码/项目: GITHUB


💡 一句话要点

提出数据到能量的随机动力学方法,解决无数据样本下的薛定谔桥问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 薛定谔桥 随机动力学 最优传输 强化学习 无数据学习 扩散模型 生成模型

📋 核心要点

  1. 现有薛定谔桥算法依赖于两个分布的样本,限制了其在仅有非归一化密度函数场景下的应用。
  2. 该论文提出一种数据到能量的迭代比例拟合方法,无需样本即可学习薛定谔桥,灵感来源于强化学习。
  3. 实验表明,该方法能有效学习多峰分布间的传输,并可用于改进现有数据到数据的薛定谔桥算法。

📝 摘要(中文)

薛定谔桥问题旨在寻找连接两个边缘分布的随机动力学系统,并最小化一定的运输成本。作为最优传输在随机情况下的推广,该问题因其与扩散模型和流匹配的联系以及在自然科学中的应用而备受关注。然而,现有算法仅适用于可以获取两个分布样本的情况。本文提出了一种通用方法,用于在仅给定非归一化密度而无法访问数据样本的情况下建模薛定谔桥。我们的算法基于迭代比例拟合(IPF)程序到无数据情况的推广,灵感来自离线强化学习在训练扩散采样器中的最新进展。我们在合成问题上验证了所提出的数据到能量IPF的有效性,发现它可以成功学习多峰分布之间的传输。作为强化学习公式的次要结果,我们发现现有的数据到数据的薛定谔桥算法可以通过学习动力学的扩散系数得到显著改进。最后,我们将新开发的算法应用于生成模型潜在空间中后验分布的采样问题,从而创建了一种无数据的图像到图像的转换方法。

🔬 方法详解

问题定义:论文旨在解决薛定谔桥问题,即寻找连接两个边缘分布且最小化运输成本的随机动力学系统。现有算法的痛点在于,它们都需要访问两个分布的样本数据才能进行学习,这在许多实际场景中是不可行的,例如当分布仅以非归一化的密度函数形式给出时。

核心思路:论文的核心思路是将迭代比例拟合(IPF)程序推广到无数据样本的情况。受到离线强化学习在训练扩散采样器中的启发,将薛定谔桥问题转化为一个强化学习问题,通过学习一个策略来控制随机动力学,从而在两个分布之间进行传输。这种方法允许在没有显式数据样本的情况下,仅利用非归一化的密度函数来学习薛定谔桥。

技术框架:整体框架基于迭代比例拟合(IPF)过程的推广。首先,定义一个随机动力学系统,其参数需要通过学习来确定。然后,利用强化学习算法,例如策略梯度方法,来优化这个动力学系统的参数,使得它能够将一个分布传输到另一个分布。关键在于,强化学习的奖励函数是基于目标分布的非归一化密度函数来定义的,因此不需要显式的数据样本。整个过程迭代进行,直到动力学系统收敛到一个稳定的状态,即找到了连接两个分布的薛定谔桥。

关键创新:最重要的技术创新点在于将薛定谔桥问题转化为一个无数据样本的强化学习问题。与现有方法需要显式数据样本不同,该方法只需要知道目标分布的非归一化密度函数。这使得该方法能够应用于更广泛的场景,例如当目标分布是隐式的,或者获取样本数据非常困难时。此外,通过强化学习框架,可以学习动力学系统的扩散系数,从而进一步提高薛定谔桥的性能。

关键设计:论文采用策略梯度方法来训练强化学习模型。奖励函数的设计至关重要,它基于目标分布的非归一化密度函数,引导智能体学习正确的传输策略。具体来说,奖励函数可以设计为目标分布密度函数的对数,或者其他与目标分布相关的函数。此外,时间离散化方案的选择也会影响算法的性能,需要仔细调整。网络结构的选择也需要根据具体问题进行调整,例如可以使用卷积神经网络来处理图像数据。

📊 实验亮点

实验结果表明,该方法能够成功学习多峰分布之间的传输,并且可以显著改进现有的数据到数据的薛定谔桥算法。通过学习动力学的扩散系数,可以进一步提高薛定谔桥的性能。此外,该方法在生成模型潜在空间的后验采样问题中也取得了良好的效果,实现了无数据样本的图像到图像转换。

🎯 应用场景

该研究成果可应用于多个领域,包括生成模型的后验采样、图像到图像的转换、以及分子动力学模拟等。在生成模型中,可以利用该方法从潜在空间中采样,生成高质量的图像。在图像到图像的转换中,可以实现无数据样本的风格迁移。在分子动力学模拟中,可以用于研究分子在不同状态之间的转变路径。该方法具有广泛的应用前景和重要的实际价值。

📄 摘要(原文)

The Schrödinger bridge problem is concerned with finding a stochastic dynamical system bridging two marginal distributions that minimises a certain transportation cost. This problem, which represents a generalisation of optimal transport to the stochastic case, has received attention due to its connections to diffusion models and flow matching, as well as its applications in the natural sciences. However, all existing algorithms allow to infer such dynamics only for cases where samples from both distributions are available. In this paper, we propose the first general method for modelling Schrödinger bridges when one (or both) distributions are given by their unnormalised densities, with no access to data samples. Our algorithm relies on a generalisation of the iterative proportional fitting (IPF) procedure to the data-free case, inspired by recent developments in off-policy reinforcement learning for training of diffusion samplers. We demonstrate the efficacy of the proposed data-to-energy IPF on synthetic problems, finding that it can successfully learn transports between multimodal distributions. As a secondary consequence of our reinforcement learning formulation, which assumes a fixed time discretisation scheme for the dynamics, we find that existing data-to-data Schrödinger bridge algorithms can be substantially improved by learning the diffusion coefficient of the dynamics. Finally, we apply the newly developed algorithm to the problem of sampling posterior distributions in latent spaces of generative models, thus creating a data-free image-to-image translation method. Code: https://github.com/mmacosha/d2e-stochastic-dynamics