ToolRLA: Fine-Grained Reward Decomposition for Tool-Integrated Reinforcement Learning Alignment in Domain-Specific Agents
作者: Pengbo Liu
分类: cs.AI
发布日期: 2026-03-02
💡 一句话要点
ToolRLA:针对领域特定智能体的工具集成强化学习对齐,提出细粒度奖励分解方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 工具集成 强化学习 奖励分解 领域特定智能体 金融咨询 策略优化 API调用
📋 核心要点
- 现有工具集成推理Agent在复杂多步任务中表现出潜力,但使用粗糙二元奖励的强化学习不足以指导生产中的细致工具调用。
- ToolRLA通过细粒度奖励函数,从格式、工具选择、效率和合规性四个维度评估工具调用,并采用乘法分解和负合规惩罚。
- 在金融咨询场景的实际部署中,ToolRLA显著提升了任务完成率、降低了工具调用错误率和监管违规率,并保持了低延迟。
📝 摘要(中文)
本文提出ToolRLA,一个三阶段后训练流程(监督微调、群体相对策略优化、直接偏好优化),用于领域特定工具集成智能体。其核心是细粒度的奖励函数,通过乘法正确性分解评估工具调用的四个维度:格式有效性、工具选择正确性、调用效率和领域约束合规性。乘法组合优先考虑正确的工具选择(有意义的参数评估的先决条件),而较大的负合规性惩罚(λ=10)确保了监管合规性。在真实金融咨询副驾驶(80+顾问,1,200+每日查询,15+异构API)上的部署表明,ToolRLA实现了47%的端到端任务完成率提升(62%到91%),63%的工具调用错误率降低(38%到14%),93%的监管违规率降低(12%到0.8%),以及三个月后的亚秒级延迟。消融研究证实,细粒度奖励分解比粗粒度加性奖励贡献了7个百分点;通用性在ToolBench和API-Bank上得到了验证。
🔬 方法详解
问题定义:现有工具集成Agent在领域特定场景中部署时,面临着奖励信号不足的问题。传统的强化学习方法通常使用粗糙的二元奖励(成功/失败)来指导Agent的行为,这无法充分反映工具调用的细微差别,例如工具选择的正确性、参数的有效性以及是否符合领域约束。这种粗糙的奖励信号导致Agent难以学习到最优的工具使用策略,尤其是在需要复杂多步推理的任务中。
核心思路:ToolRLA的核心思路是通过细粒度的奖励分解来提供更丰富的奖励信号。它将工具调用的正确性分解为四个维度:格式有效性、工具选择正确性、调用效率和领域约束合规性。通过对每个维度进行评估并给予相应的奖励或惩罚,ToolRLA能够更精确地指导Agent的学习过程。此外,ToolRLA采用乘法组合的方式来整合各个维度的奖励,从而优先保证工具选择的正确性。
技术框架:ToolRLA是一个三阶段的后训练流程,包括:1) 监督微调(SFT):使用专家数据对Agent进行初步训练,使其具备基本的工具使用能力。2) 群体相对策略优化(Group Relative Policy Optimization):使用多个Agent进行交互,并通过比较不同Agent的表现来优化策略。3) 直接偏好优化(Direct Preference Optimization):使用人类反馈数据来进一步调整Agent的策略,使其更符合人类的偏好。细粒度奖励函数在后两个阶段中发挥关键作用,指导Agent学习更有效的工具使用策略。
关键创新:ToolRLA最重要的技术创新点在于其细粒度的奖励分解方法。与传统的粗糙奖励信号相比,ToolRLA能够提供更丰富、更精确的奖励信息,从而更好地指导Agent的学习过程。此外,ToolRLA采用乘法组合的方式来整合各个维度的奖励,从而优先保证工具选择的正确性,这对于工具集成Agent来说至关重要。
关键设计:ToolRLA的关键设计包括:1) 细粒度奖励函数的四个维度:格式有效性、工具选择正确性、调用效率和领域约束合规性。2) 乘法组合方式:通过将各个维度的奖励相乘,确保只有在所有维度都满足要求时才能获得较高的奖励。3) 大的负合规性惩罚(λ=10):确保Agent严格遵守领域约束,避免出现违规行为。4) 三阶段训练流程:通过监督微调、群体相对策略优化和直接偏好优化,逐步提升Agent的工具使用能力。
🖼️ 关键图片
📊 实验亮点
ToolRLA在真实金融咨询副驾驶场景中取得了显著的性能提升。端到端任务完成率从62%提升到91%,工具调用错误率从38%降低到14%,监管违规率从12%降低到0.8%。消融研究表明,细粒度奖励分解比粗粒度加性奖励贡献了7个百分点的性能提升。此外,ToolRLA在ToolBench和API-Bank等通用基准测试中也表现出良好的泛化能力。
🎯 应用场景
ToolRLA适用于需要与外部API交互的领域特定智能体,例如金融咨询、医疗诊断、法律咨询等。通过提供细粒度的奖励信号,ToolRLA可以帮助Agent更有效地利用工具,提高任务完成率,降低错误率,并确保符合领域约束。该研究的实际价值在于可以提升领域特定智能体的性能和可靠性,使其能够更好地服务于人类。
📄 摘要(原文)
Tool-integrated reasoning agents interleaving natural language deliberation with external API calls show promise for complex multi-step tasks. However, aligning such agents for high-stakes domain-specific deployment is challenging, as existing reinforcement learning uses coarse binary rewards (success/failure) that insufficiently guide nuanced tool invocation in production. We present ToolRLA, a three-stage post-training pipeline (Supervised Fine-Tuning, Group Relative Policy Optimization, Direct Preference Optimization) for domain-specific tool-integrated agents. Its core is a fine-grained reward function with multiplicative correctness decomposition, evaluating tool invocation across four dimensions: format validity, tool selection correctness, invocation efficiency, and domain constraint compliance. Multiplicative composition prioritizes correct tool selection (a prerequisite for meaningful parameter evaluation), while a large negative compliance penalty (λ=10) ensures regulatory adherence. Deployed on a real-world financial advisory copilot (80+ advisors, 1,200+ daily queries, 15+ heterogeneous APIs), ToolRLA achieves 47% higher end-to-end task completion (62% to 91%), 63% lower tool invocation error (38% to 14%), 93% lower regulatory violation (12% to 0.8%), and sub-2-second latency after three months. Ablation studies confirm fine-grained reward decomposition contributes 7 percentage points over coarse additive rewards; generalizability is validated on ToolBench and API-Bank.