Latent Policy Steering through One-Step Flow Policies

📄 arXiv: 2603.05296v1 📥 PDF

作者: Hokyun Im, Andrey Kolobov, Jianlong Fu, Youngwoon Lee

分类: cs.RO, cs.LG

发布日期: 2026-03-05

备注: Project Webpage : https://jellyho.github.io/LPS/


💡 一句话要点

提出LPS,通过单步流策略实现离线强化学习中的高效潜在策略引导

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 潜在策略引导 MeanFlow策略 行为约束 机器人学习

📋 核心要点

  1. 离线强化学习需要在回报最大化和行为约束之间权衡,现有方法难以兼顾。
  2. LPS通过单步MeanFlow策略反向传播Q梯度,直接优化潜在空间策略,避免信息损失。
  3. 实验表明,LPS在多个数据集和机器人任务上取得了优于现有方法的性能。

📝 摘要(中文)

离线强化学习(RL)允许机器人从离线数据集中学习,避免了探索风险。然而,离线RL的性能通常取决于回报最大化(可能将策略推离数据集支持)和行为约束(通常需要敏感的超参数调整)之间的脆弱平衡。潜在引导提供了一种在RL期间保持在数据集支持内的结构化方法,但现有的离线方法通常使用通过间接蒸馏学习的潜在空间评论家来近似动作值,这可能丢失信息并阻碍收敛。我们提出了潜在策略引导(LPS),它通过可微的单步MeanFlow策略反向传播原始动作空间Q梯度,以更新潜在动作空间actor,从而实现高保真的潜在策略改进。通过消除代理潜在评论家,LPS允许原始动作空间评论家指导端到端的潜在空间优化,而单步MeanFlow策略充当行为约束生成先验。这种解耦产生了一种鲁棒的方法,无需最少的调整即可直接使用。在OGBench和真实世界的机器人任务中,LPS实现了最先进的性能,并且始终优于行为克隆和强大的潜在引导基线。

🔬 方法详解

问题定义:离线强化学习旨在利用预先收集的数据训练策略,而无需在线探索。现有方法在回报最大化和行为约束之间难以平衡。过于追求回报可能导致策略偏离数据集分布,而过强的行为约束则可能限制策略的性能。现有的潜在策略引导方法通常使用潜在空间评论家来近似动作值,但这种间接蒸馏过程可能导致信息损失,影响策略的收敛和性能。

核心思路:LPS的核心思路是通过可微的单步MeanFlow策略,将原始动作空间的Q梯度反向传播到潜在动作空间,从而直接优化潜在策略。这种方法避免了使用代理潜在评论家,允许原始动作空间评论家直接指导潜在空间的优化,从而实现高保真的策略改进。同时,单步MeanFlow策略作为一种行为约束的生成先验,确保策略不会偏离数据集分布。

技术框架:LPS包含一个原始动作空间的Q函数(Critic)和一个潜在动作空间的策略(Actor)。Actor生成潜在动作,通过单步MeanFlow策略映射到原始动作空间。Critic评估原始动作的Q值,并将Q梯度反向传播通过MeanFlow策略,更新Actor。整体流程如下:1. Actor生成潜在动作;2. MeanFlow策略将潜在动作映射到原始动作空间;3. Critic评估原始动作的Q值;4. Q梯度反向传播更新Actor。

关键创新:LPS的关键创新在于消除了代理潜在评论家,实现了原始动作空间评论家对潜在空间策略的直接指导。这避免了间接蒸馏过程中的信息损失,提高了策略优化的效率和稳定性。此外,单步MeanFlow策略作为一种行为约束的生成先验,能够有效地限制策略的探索范围,防止策略偏离数据集分布。

关键设计:LPS使用单步MeanFlow策略作为潜在动作到原始动作的映射。MeanFlow策略是一个可微的生成模型,可以学习数据集的分布。Q函数可以使用任何标准的离线强化学习算法进行训练,例如Behavior Cloning、CQL等。Actor使用梯度上升法进行更新,目标是最大化Q函数的值。损失函数主要包括Q函数的损失和MeanFlow策略的正则化项,以确保策略的平滑性和稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LPS在OGBench和真实世界的机器人任务中取得了最先进的性能。在多个数据集上,LPS显著优于行为克隆和现有的潜在引导基线。例如,在某些任务上,LPS的回报比行为克隆提高了20%以上。实验结果表明,LPS能够有效地利用离线数据学习高质量的策略,并且具有良好的鲁棒性和泛化性能。

🎯 应用场景

LPS适用于各种需要离线强化学习的机器人任务,例如机器人操作、自动驾驶、游戏AI等。该方法可以利用预先收集的数据训练机器人策略,避免了在线探索的风险和成本。通过学习高质量的潜在策略,LPS可以提高机器人的决策能力和泛化性能,使其能够更好地适应复杂和不确定的环境。

📄 摘要(原文)

Offline reinforcement learning (RL) allows robots to learn from offline datasets without risky exploration. Yet, offline RL's performance often hinges on a brittle trade-off between (1) return maximization, which can push policies outside the dataset support, and (2) behavioral constraints, which typically require sensitive hyperparameter tuning. Latent steering offers a structural way to stay within the dataset support during RL, but existing offline adaptations commonly approximate action values using latent-space critics learned via indirect distillation, which can lose information and hinder convergence. We propose Latent Policy Steering (LPS), which enables high-fidelity latent policy improvement by backpropagating original-action-space Q-gradients through a differentiable one-step MeanFlow policy to update a latent-action-space actor. By eliminating proxy latent critics, LPS allows an original-action-space critic to guide end-to-end latent-space optimization, while the one-step MeanFlow policy serves as a behavior-constrained generative prior. This decoupling yields a robust method that works out-of-the-box with minimal tuning. Across OGBench and real-world robotic tasks, LPS achieves state-of-the-art performance and consistently outperforms behavioral cloning and strong latent steering baselines.