Real-Time Generative Policy via Langevin-Guided Flow Matching for Autonomous Driving

📄 arXiv: 2603.02613v1 📥 PDF

作者: Tianze Zhu, Yinuo Wang, Wenjun Zou, Tianyi Zhang, Likun Wang, Letian Tao, Feihong Zhang, Yao Lyu, Shengbo Eben Li

分类: cs.LG, cs.RO

发布日期: 2026-03-03


💡 一句话要点

提出基于Langevin引导的Flow Matching实时生成策略DACER-F,用于自动驾驶。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 自动驾驶 生成策略 Flow Matching Langevin动力学

📋 核心要点

  1. 现有生成策略强化学习方法推理延迟高,难以满足自动驾驶实时决策需求。
  2. 提出DACER-F,利用Flow Matching学习简单分布到动态目标分布的映射,单步推理生成动作。
  3. 实验表明,DACER-F在自动驾驶仿真和DMC基准测试中均优于现有算法,且推理延迟极低。

📝 摘要(中文)

强化学习(RL)是自动驾驶系统中的一种基本方法,其中生成策略通过利用其建模复杂分布的能力来增强探索,展现出巨大的潜力。然而,它们固有的高推理延迟严重阻碍了它们在实时决策和控制中的部署。为了解决这个问题,我们提出了一种通过流匹配(DACER-F)的扩散Actor-Critic与熵调节器,通过将流匹配引入在线RL,从而能够在单个推理步骤中生成有竞争力的动作。通过利用Langevin动力学和Q函数的梯度,DACER-F动态地优化来自经验回放的动作,使其朝着一个目标分布发展,该目标分布平衡了高Q值信息与探索行为。然后训练流策略,以有效地学习从简单先验分布到这种动态目标的映射。在复杂的多车道和交叉路口模拟中,DACER-F优于基线扩散Actor-Critic与熵调节器(DACER)和分布软Actor-Critic(DSAC),同时保持超低的推理延迟。DACER-F进一步证明了其在标准RL基准DeepMind Control Suite (DMC)上的可扩展性,在humanoid-stand任务中获得了775.8分,超过了先前的方法。总的来说,这些结果将DACER-F确立为一种高性能和计算效率高的RL算法。

🔬 方法详解

问题定义:论文旨在解决自动驾驶中强化学习策略推理速度慢的问题。现有的生成策略强化学习方法,例如基于扩散模型的策略,虽然能够建模复杂的动作分布并进行有效的探索,但由于其迭代式的采样过程,推理延迟较高,难以满足自动驾驶实时决策的需求。

核心思路:论文的核心思路是利用Flow Matching技术,学习一个从简单先验分布到目标动作分布的映射。目标动作分布由Langevin动力学引导,平衡了Q值信息和探索行为。通过学习这种映射关系,DACER-F能够在单步推理中生成高质量的动作,从而显著降低推理延迟。这样设计的目的是为了在保证策略性能的同时,满足自动驾驶对实时性的要求。

技术框架:DACER-F算法基于Actor-Critic框架,包含以下主要模块:1) Actor网络:使用Flow Matching学习从简单先验分布到目标动作分布的映射;2) Critic网络:评估当前策略的Q值;3) 经验回放缓冲区:存储智能体的经验数据;4) Langevin引导模块:利用Q函数的梯度,动态优化目标动作分布。算法流程如下:智能体与环境交互,收集经验数据并存储到经验回放缓冲区;从经验回放缓冲区采样数据,更新Actor和Critic网络;使用Langevin动力学引导目标动作分布的优化;重复以上步骤,直到策略收敛。

关键创新:DACER-F最重要的技术创新点是将Flow Matching技术引入到在线强化学习中,用于学习生成策略。与传统的生成策略强化学习方法相比,DACER-F能够实现单步推理,显著降低了推理延迟。此外,DACER-F还利用Langevin动力学动态优化目标动作分布,从而平衡了Q值信息和探索行为。

关键设计:DACER-F的关键设计包括:1) 使用连续归一化流(Continuous Normalizing Flows)作为Actor网络,学习从简单先验分布到目标动作分布的映射;2) 使用Langevin动力学优化目标动作分布,具体来说,通过迭代更新动作,使其朝着Q函数梯度上升的方向移动;3) 使用熵正则化项,鼓励策略进行探索;4) 使用TD-error作为Critic网络的损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DACER-F在复杂的多车道和交叉路口自动驾驶仿真环境中,性能优于基线算法DACER和DSAC,同时保持了超低的推理延迟。在DeepMind Control Suite (DMC)的humanoid-stand任务中,DACER-F取得了775.8分,超过了之前的方法,验证了其在标准强化学习基准测试上的有效性和可扩展性。

🎯 应用场景

DACER-F算法具有广泛的应用前景,可应用于自动驾驶、机器人控制、游戏AI等领域。在自动驾驶领域,DACER-F可以用于车辆的运动规划、决策控制等任务,提高自动驾驶系统的安全性和效率。在机器人控制领域,DACER-F可以用于机器人的运动控制、任务规划等任务,提高机器人的自主性和适应性。在游戏AI领域,DACER-F可以用于游戏角色的行为决策,提高游戏的趣味性和挑战性。

📄 摘要(原文)

Reinforcement learning (RL) is a fundamental methodology in autonomous driving systems, where generative policies exhibit considerable potential by leveraging their ability to model complex distributions to enhance exploration. However, their inherent high inference latency severely impedes their deployment in real-time decision-making and control. To address this issue, we propose diffusion actor-critic with entropy regulator via flow matching (DACER-F) by introducing flow matching into online RL, enabling the generation of competitive actions in a single inference step. By leveraging Langevin dynamics and gradients of the Q-function, DACER-F dynamically optimizes actions from experience replay toward a target distribution that balances high Q-value information with exploratory behavior. The flow policy is then trained to efficiently learn a mapping from a simple prior distribution to this dynamic target. In complex multi-lane and intersection simulations, DACER-F outperforms baselines diffusion actor-critic with entropy regulator (DACER) and distributional soft actor-critic (DSAC), while maintaining an ultra-low inference latency. DACER-F further demonstrates its scalability on standard RL benchmark DeepMind Control Suite (DMC), achieving a score of 775.8 in the humanoid-stand task and surpassing prior methods. Collectively, these results establish DACER-F as a high-performance and computationally efficient RL algorithm.