Harmonizing Dense and Sparse Signals in Multi-turn RL: Dual-Horizon Credit Assignment for Industrial Sales Agents

📄 arXiv: 2603.01481v1 📥 PDF

作者: Haojin Yang, Ai Jian, Xinyue Huang, Yiwei Wang, Weipeng Zhang, Ke Zeng, Xunliang Cai, Jingqing Ruan

分类: cs.AI

发布日期: 2026-03-02

备注: 15 pages, 6 figures


💡 一句话要点

提出DuCA框架,解决工业销售Agent中长短期目标不平衡问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 多轮对话 信用分配 工业销售 优势归一化

📋 核心要点

  1. 传统强化学习在工业销售Agent中,将长期商业目标和短期语言约束合并为单一奖励,导致训练不稳定。
  2. DuCA框架通过范围独立优势归一化(HIAN),分别处理turn级别和会话级别的奖励,平衡梯度贡献。
  3. 实验表明,DuCA在转化率、语言流畅性和合规性方面均优于现有方法,提升了工业销售Agent的性能。

📝 摘要(中文)

本文提出了一种名为双重时间范围信用分配(DuCA)的框架,旨在优化工业销售场景下的大型语言模型。该框架通过平衡长期商业目标(如转化率)与即时语言约束(如流畅性和合规性)来解决传统强化学习方法中高幅度会话级别奖励淹没细微的turn级别信号的问题,从而避免训练不稳定或奖励利用。DuCA的核心是范围独立优势归一化(HIAN),它在融合之前分别归一化turn级别和会话级别奖励的优势,确保来自即时和长期目标的梯度贡献平衡到策略更新中。在高保真用户模拟器上的大量实验表明,DuCA优于最先进的GRPO基线,转化率相对提高了6.82%,句子间重复减少了82.28%,身份检测率降低了27.35%,表明在有效平衡战略性能和自然语言生成双重需求的工业销售场景中取得了显著改进。

🔬 方法详解

问题定义:工业销售Agent需要同时优化长期商业目标(如转化率)和短期语言约束(如流畅性)。现有强化学习方法通常将这些目标合并为单一奖励,导致高幅度的会话级别奖励淹没细微的turn级别信号,造成训练不稳定或奖励利用。这种不平衡的信用分配是现有方法的痛点。

核心思路:DuCA的核心思路是将长期(会话级别)和短期(turn级别)的奖励信号解耦,并分别进行处理,然后再融合。通过独立地归一化不同时间范围的优势函数,确保它们对策略更新的贡献是平衡的,从而避免长期奖励主导训练过程。

技术框架:DuCA框架主要包含以下几个阶段:1) Agent与环境交互,生成对话序列;2) 根据对话序列计算turn级别和会话级别的奖励;3) 使用HIAN分别归一化turn级别和会话级别的优势函数;4) 将归一化后的优势函数融合,用于策略更新。整体架构旨在平衡不同时间范围的奖励信号,从而优化Agent的长期和短期目标。

关键创新:DuCA最重要的技术创新点是Horizon-Independent Advantage Normalization (HIAN)。HIAN的核心在于分别对不同时间范围(turn级别和会话级别)的优势函数进行归一化,确保它们在策略更新中具有相似的尺度和贡献。与现有方法直接融合不同时间范围的奖励信号不同,HIAN通过解耦和归一化,避免了长期奖励对短期奖励的压制。

关键设计:HIAN的关键设计在于如何选择合适的归一化方法。论文中使用了均值和方差归一化,分别计算turn级别和会话级别优势函数的均值和方差,然后进行标准化。此外,如何确定turn级别和会话级别奖励的权重也是一个关键设计。论文通过实验调整这些权重,以达到最佳的性能平衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DuCA框架在工业销售场景中显著优于现有的GRPO基线。具体来说,DuCA的转化率相对提高了6.82%,句子间重复减少了82.28%,身份检测率降低了27.35%。这些数据表明,DuCA能够有效平衡战略性能和自然语言生成,从而提升工业销售Agent的整体性能。

🎯 应用场景

该研究成果可广泛应用于各种工业销售场景,例如在线客服、销售机器人等。通过平衡长期商业目标和短期语言约束,可以提升销售Agent的转化率、用户满意度和合规性。未来,该方法还可以扩展到其他需要平衡不同时间范围目标的任务中,例如推荐系统、自动驾驶等。

📄 摘要(原文)

Optimizing large language models for industrial sales requires balancing long-term commercial objectives (e.g., conversion rate) with immediate linguistic constraints such as fluency and compliance. Conventional reinforcement learning often merges these heterogeneous goals into a single reward, causing high-magnitude session-level rewards to overwhelm subtler turn-level signals, which leads to unstable training or reward hacking. To address this issue, we propose Dual-Horizon Credit Assignment (DuCA), a framework that disentangles optimization across time scales. Its core, Horizon-Independent Advantage Normalization (HIAN), separately normalizes advantages from turn-level and session-level rewards before fusion, ensuring balanced gradient contributions from both immediate and long-term objectives to the policy update. Extensive experiments with a high-fidelity user simulator show DuCA outperforms the state-of-the-art GRPO baseline, achieving a 6.82% relative improvement in conversion rate, reducing inter-sentence repetition by 82.28%, and lowering identity detection rate by 27.35%, indicating a substantial improvement for an industrial sales scenario that effectively balances the dual demands of strategic performance and naturalistic language generation.