ToolRLA: Fine-Grained Reward Decomposition for Tool-Integrated Reinforcement Learning Alignment in Domain-Specific Agents

作者: Pengbo Liu

分类: cs.AI

发布日期: 2026-03-02

💡 一句话要点

ToolRLA：针对领域特定智能体的工具集成强化学习对齐，提出细粒度奖励分解方法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 工具集成 强化学习 奖励分解 领域特定智能体 金融咨询 策略优化 API调用

📋 核心要点

现有工具集成推理Agent在复杂多步任务中表现出潜力，但使用粗糙二元奖励的强化学习不足以指导生产中的细致工具调用。
ToolRLA通过细粒度奖励函数，从格式、工具选择、效率和合规性四个维度评估工具调用，并采用乘法分解和负合规惩罚。
在金融咨询场景的实际部署中，ToolRLA显著提升了任务完成率、降低了工具调用错误率和监管违规率，并保持了低延迟。

📝 摘要（中文）

本文提出ToolRLA，一个三阶段后训练流程（监督微调、群体相对策略优化、直接偏好优化），用于领域特定工具集成智能体。其核心是细粒度的奖励函数，通过乘法正确性分解评估工具调用的四个维度：格式有效性、工具选择正确性、调用效率和领域约束合规性。乘法组合优先考虑正确的工具选择（有意义的参数评估的先决条件），而较大的负合规性惩罚（λ=10）确保了监管合规性。在真实金融咨询副驾驶（80+顾问，1,200+每日查询，15+异构API）上的部署表明，ToolRLA实现了47%的端到端任务完成率提升（62%到91%），63%的工具调用错误率降低（38%到14%），93%的监管违规率降低（12%到0.8%），以及三个月后的亚秒级延迟。消融研究证实，细粒度奖励分解比粗粒度加性奖励贡献了7个百分点；通用性在ToolBench和API-Bank上得到了验证。

🔬 方法详解

问题定义：现有工具集成Agent在领域特定场景中部署时，面临着奖励信号不足的问题。传统的强化学习方法通常使用粗糙的二元奖励（成功/失败）来指导Agent的行为，这无法充分反映工具调用的细微差别，例如工具选择的正确性、参数的有效性以及是否符合领域约束。这种粗糙的奖励信号导致Agent难以学习到最优的工具使用策略，尤其是在需要复杂多步推理的任务中。

核心思路：ToolRLA的核心思路是通过细粒度的奖励分解来提供更丰富的奖励信号。它将工具调用的正确性分解为四个维度：格式有效性、工具选择正确性、调用效率和领域约束合规性。通过对每个维度进行评估并给予相应的奖励或惩罚，ToolRLA能够更精确地指导Agent的学习过程。此外，ToolRLA采用乘法组合的方式来整合各个维度的奖励，从而优先保证工具选择的正确性。

技术框架：ToolRLA是一个三阶段的后训练流程，包括：1) 监督微调（SFT）：使用专家数据对Agent进行初步训练，使其具备基本的工具使用能力。2) 群体相对策略优化（Group Relative Policy Optimization）：使用多个Agent进行交互，并通过比较不同Agent的表现来优化策略。3) 直接偏好优化（Direct Preference Optimization）：使用人类反馈数据来进一步调整Agent的策略，使其更符合人类的偏好。细粒度奖励函数在后两个阶段中发挥关键作用，指导Agent学习更有效的工具使用策略。

关键创新：ToolRLA最重要的技术创新点在于其细粒度的奖励分解方法。与传统的粗糙奖励信号相比，ToolRLA能够提供更丰富、更精确的奖励信息，从而更好地指导Agent的学习过程。此外，ToolRLA采用乘法组合的方式来整合各个维度的奖励，从而优先保证工具选择的正确性，这对于工具集成Agent来说至关重要。

关键设计：ToolRLA的关键设计包括：1) 细粒度奖励函数的四个维度：格式有效性、工具选择正确性、调用效率和领域约束合规性。2) 乘法组合方式：通过将各个维度的奖励相乘，确保只有在所有维度都满足要求时才能获得较高的奖励。3) 大的负合规性惩罚（λ=10）：确保Agent严格遵守领域约束，避免出现违规行为。4) 三阶段训练流程：通过监督微调、群体相对策略优化和直接偏好优化，逐步提升Agent的工具使用能力。

🖼️ 关键图片

📊 实验亮点

ToolRLA在真实金融咨询副驾驶场景中取得了显著的性能提升。端到端任务完成率从62%提升到91%，工具调用错误率从38%降低到14%，监管违规率从12%降低到0.8%。消融研究表明，细粒度奖励分解比粗粒度加性奖励贡献了7个百分点的性能提升。此外，ToolRLA在ToolBench和API-Bank等通用基准测试中也表现出良好的泛化能力。

🎯 应用场景

ToolRLA适用于需要与外部API交互的领域特定智能体，例如金融咨询、医疗诊断、法律咨询等。通过提供细粒度的奖励信号，ToolRLA可以帮助Agent更有效地利用工具，提高任务完成率，降低错误率，并确保符合领域约束。该研究的实际价值在于可以提升领域特定智能体的性能和可靠性，使其能够更好地服务于人类。

📄 摘要（原文）

Tool-integrated reasoning agents interleaving natural language deliberation with external API calls show promise for complex multi-step tasks. However, aligning such agents for high-stakes domain-specific deployment is challenging, as existing reinforcement learning uses coarse binary rewards (success/failure) that insufficiently guide nuanced tool invocation in production. We present ToolRLA, a three-stage post-training pipeline (Supervised Fine-Tuning, Group Relative Policy Optimization, Direct Preference Optimization) for domain-specific tool-integrated agents. Its core is a fine-grained reward function with multiplicative correctness decomposition, evaluating tool invocation across four dimensions: format validity, tool selection correctness, invocation efficiency, and domain constraint compliance. Multiplicative composition prioritizes correct tool selection (a prerequisite for meaningful parameter evaluation), while a large negative compliance penalty (λ=10) ensures regulatory adherence. Deployed on a real-world financial advisory copilot (80+ advisors, 1,200+ daily queries, 15+ heterogeneous APIs), ToolRLA achieves 47% higher end-to-end task completion (62% to 91%), 63% lower tool invocation error (38% to 14%), 93% lower regulatory violation (12% to 0.8%), and sub-2-second latency after three months. Ablation studies confirm fine-grained reward decomposition contributes 7 percentage points over coarse additive rewards; generalizability is validated on ToolBench and API-Bank.

ToolRLA: Fine-Grained Reward Decomposition for Tool-Integrated Reinforcement Learning Alignment in Domain-Specific Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理