LLMs for High-Frequency Decision-Making: Normalized Action Reward-Guided Consistency Policy Optimization

📄 arXiv: 2603.02680v1 📥 PDF

作者: Yang Zhao, Zihao Li, Zhiyu Jiang, Dandan Ma, Ganchao Liu, Wenzhe Zhao

分类: cs.AI

发布日期: 2026-03-03


💡 一句话要点

提出NAR-CP方法,解决LLM在高频决策任务中的策略失准问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 高频决策 强化学习 策略优化 奖励塑造

📋 核心要点

  1. 现有LLM方法在高频决策任务中,由于状态频繁更新且波动小,导致策略学习困难。
  2. NAR-CP方法通过归一化动作奖励进行奖励塑造,并利用一致性损失对齐全局和子策略。
  3. 在无人机追逐任务上的实验表明,NAR-CP在独立和复合任务中均优于现有方法,并具有良好的泛化性。

📝 摘要(中文)

大型语言模型(LLM)是序贯决策智能体开发的基础,但在高频决策任务中存在固有局限性。现有研究主要集中在状态空间具有低频率和显著语义差异的离散具身决策场景(例如,家庭规划)。这些方法在高频决策任务中表现不佳,因为此类任务中的高精度数值状态信息会频繁更新且波动极小,并且在学习到的子任务和复合任务之间存在策略不一致。为了解决这些问题,本文提出了一种归一化动作奖励引导的一致性策略优化(NAR-CP)方法。首先,我们的方法通过奖励函数从候选动作的环境反馈中获取预定义的密集奖励,然后通过归一化完成奖励塑造,并在理论上验证了动作奖励归一化不会损害最优策略。其次,为了减少复合任务中的策略不一致,我们使用LLM来推断子观察候选动作并生成联合策略,并通过一致性损失确保全局语义策略和子语义策略之间的精确对齐。在典型的无人机追逐高频任务上的实验表明,我们的方法在独立和复合任务中均表现出卓越的性能,并且对未见任务具有出色的泛化能力。

🔬 方法详解

问题定义:现有基于LLM的决策方法在高频决策任务中面临挑战。这类任务的状态空间通常是高精度的数值信息,频繁更新且波动幅度小,这使得LLM难以有效学习和泛化。此外,复合任务中子任务之间的策略不一致性也是一个重要问题,导致整体性能下降。

核心思路:NAR-CP的核心思路是通过归一化动作奖励来改善奖励信号,并利用一致性策略优化来对齐全局和局部策略。动作奖励归一化可以有效地塑造奖励函数,而不会影响最优策略。一致性策略优化则通过LLM推断子观察候选动作,并使用一致性损失来确保全局语义策略和子语义策略之间的对齐。

技术框架:NAR-CP的整体框架包括以下几个主要模块:1) 动作奖励生成模块:根据环境反馈为候选动作生成预定义的密集奖励。2) 奖励归一化模块:对动作奖励进行归一化处理,以塑造奖励函数。3) LLM策略推理模块:利用LLM推断子观察候选动作,并生成联合策略。4) 一致性策略优化模块:通过一致性损失来对齐全局语义策略和子语义策略。

关键创新:NAR-CP的关键创新在于以下两点:1) 动作奖励归一化:通过理论验证,证明动作奖励归一化不会损害最优策略,并能有效地改善奖励信号。2) 一致性策略优化:利用LLM进行子观察候选动作推理,并通过一致性损失来对齐全局和局部策略,从而减少策略不一致性。

关键设计:在奖励归一化模块中,采用了合适的归一化方法(具体方法未知)来确保奖励信号的有效性。在一致性策略优化模块中,一致性损失的具体形式(例如,KL散度或交叉熵)以及LLM的网络结构和训练方式(未知)是影响性能的关键因素。此外,子观察的划分方式以及LLM如何与环境进行交互也是重要的设计细节。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在无人机追逐任务上的实验结果表明,NAR-CP方法在独立和复合任务中均取得了显著的性能提升。具体而言,NAR-CP在完成任务的成功率和平均奖励方面均优于现有方法,并且对未见任务具有良好的泛化能力。这些结果验证了NAR-CP方法在高频决策任务中的有效性。

🎯 应用场景

NAR-CP方法具有广泛的应用前景,可以应用于各种需要高频决策的场景,例如无人机控制、机器人运动规划、金融交易等。该方法能够提高智能体在高频环境中的决策能力和泛化性能,从而实现更高效、更智能的自动化控制。

📄 摘要(原文)

While Large Language Models (LLMs) form the cornerstone of sequential decision-making agent development, they have inherent limitations in high-frequency decision tasks. Existing research mainly focuses on discrete embodied decision scenarios with low-frequency and significant semantic differences in state space (e.g., household planning). These methods suffer from limited performance in high-frequency decision-making tasks, since high-precision numerical state information in such tasks undergoes frequent updates with minimal fluctuations, and exhibiting policy misalignment between the learned sub-tasks and composite tasks. To address these issues, this paper proposes Normalized Action Reward guided Consistency Policy Optimization (NAR-CP). 1) Our method first acquires predefined dense rewards from environmental feedback of candidate actions via reward functions, then completes reward shaping through normalization, and theoretically verifies action reward normalization does not impair optimal policy. 2) To reduce policy misalignment in composite tasks, we use LLMs to infer sub-observation candidate actions and generate joint policies, with consistency loss ensuring precise alignment between global semantic policies and sub-semantic policies. Experiments on UAV pursuit, a typical high-frequency task, show our method delivers superior performance on independent and composite tasks with excellent generalization to unseen tasks.