Brief Is Better: Non-Monotonic Chain-of-Thought Budget Effects in Function-Calling Language Agents
作者: Xuan Qi
分类: cs.CL
发布日期: 2026-04-02
备注: 21 pages
💡 一句话要点
针对函数调用语言代理,发现适度思维链更优,并提出FR-CoT方法。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 思维链 函数调用 语言代理 非单调性 函数路由 结构化推理 大语言模型
📋 核心要点
- 现有思维链(CoT)方法在函数调用语言代理中,推理长度与准确率之间的关系尚不明确,存在冗余推理和性能下降的风险。
- 论文提出Function-Routing CoT (FR-CoT)方法,通过结构化的简短CoT,强制代理在推理开始时确定有效的函数名称,提升路由准确性。
- 实验表明,适度的思维链(32 tokens)能显著提升准确率,而FR-CoT在保证准确率的同时,有效降低了函数幻觉。
📝 摘要(中文)
本文系统研究了思维链(CoT)预算对函数调用代理性能的影响,通过在Berkeley Function Calling Leaderboard v3 Multiple基准测试的200个任务上,扫描了六个token预算(0-512)。研究发现Qwen2.5-1.5B-Instruct模型表现出显著的非单调模式:简短推理(32个token)相对于直接回答,准确率显著提高45%,从44.0%提升到64.0%,而扩展推理(256个token)则使性能降至低于无CoT基线的25.0%。错误分解揭示了其机制:在d=0时,30.5%的任务失败是因为模型从候选集中选择了错误的函数;简短CoT将此降低到1.5%,有效地充当了函数路由步骤,而长CoT逆转了增益,在d=256时产生28.0%的错误选择和18.0%的幻觉函数。Oracle分析表明,88.6%的可解任务最多需要32个推理token,平均为27.6个token,更细粒度的扫描表明,真正的最佳值位于8-16个token。受此路由效应的启发,本文提出了函数路由CoT(FR-CoT),这是一种结构化的简短CoT方法,它将推理阶段模板化为“函数:[名称]/关键参数:[...]”,从而在推理开始时强制确定有效的函数名称。FR-CoT实现了与自由形式d=32 CoT在统计上相当的准确率,同时将函数幻觉降低到0.0%,从而在没有预算调整的情况下提供了结构可靠性保证。
🔬 方法详解
问题定义:现有思维链方法在函数调用语言代理中,推理长度与准确率之间的关系研究不足。简单地增加推理长度并不总是能提高性能,反而可能导致性能下降,出现错误的函数选择和幻觉函数等问题。因此,需要研究如何有效地利用思维链,在保证准确率的同时,避免冗余推理和错误累积。
核心思路:论文的核心思路是发现并利用“函数路由”效应。研究表明,简短的思维链可以有效地引导模型选择正确的函数,而过长的思维链反而会引入噪声和错误。因此,论文提出一种结构化的简短思维链方法,即Function-Routing CoT (FR-CoT),强制模型在推理开始时确定有效的函数名称,从而提高函数选择的准确性和可靠性。
技术框架:FR-CoT方法的核心在于对思维链进行结构化设计。具体流程如下:1. 输入:接收任务描述和可用的函数列表。2. 函数路由CoT:使用预定义的模板“函数:[名称]/关键参数:[...]”引导模型进行推理,强制模型首先选择一个有效的函数名称,并提取关键参数。3. 函数调用:根据选择的函数和提取的参数,调用相应的函数。4. 输出:返回函数调用的结果。
关键创新:FR-CoT的关键创新在于其结构化的思维链设计,它将推理过程分解为函数选择和参数提取两个明确的步骤,并强制模型在推理开始时确定函数名称。这种结构化的方法可以有效地减少函数选择的错误和幻觉,提高整体性能。与传统的自由形式思维链相比,FR-CoT更具可控性和可靠性。
关键设计:FR-CoT的关键设计在于其预定义的模板“函数:[名称]/关键参数:[...]”。这个模板强制模型在推理开始时输出函数名称,从而引导模型关注函数选择,并减少后续推理中的错误。此外,论文还通过实验确定了最佳的思维链长度,发现简短的思维链(8-32 tokens)通常能够获得最佳的性能。
📊 实验亮点
实验结果表明,简短的思维链(32 tokens)能够显著提高Qwen2.5-1.5B-Instruct模型的准确率,从44.0%提升到64.0%。而FR-CoT方法在保证准确率与32 tokens的自由形式CoT相当的同时,将函数幻觉降低到0.0%,提供了结构可靠性保证。此外,Oracle分析表明,88.6%的可解任务最多需要32个推理token,进一步验证了简短思维链的有效性。
🎯 应用场景
该研究成果可应用于各种需要语言代理进行函数调用的场景,例如智能助手、自动化客服、智能家居控制等。通过使用FR-CoT方法,可以提高语言代理的准确性和可靠性,减少错误和幻觉,从而提升用户体验和工作效率。此外,该研究也为如何有效地利用思维链提供了新的思路,可以指导未来的语言代理设计。
📄 摘要(原文)
How much should a language agent think before taking action? Chain-of-thought (CoT) reasoning is widely assumed to improve agent performance, but the relationship between reasoning length and accuracy in structured tool-use settings remains poorly understood. We present a systematic study of CoT budget effects on function-calling agents, sweeping six token budgets (0--512) across 200 tasks from the Berkeley Function Calling Leaderboard v3 Multiple benchmark. Our central finding is a striking non-monotonic pattern on Qwen2.5-1.5B-Instruct: brief reasoning (32 tokens) dramatically improves accuracy by 45% relative over direct answers, from 44.0% to 64.0%, while extended reasoning (256 tokens) degrades performance well below the no-CoT baseline, to 25.0% (McNemar p < 0.001). A three-way error decomposition reveals the mechanism. At d = 0, 30.5% of tasks fail because the model selects the wrong function from the candidate set; brief CoT reduces this to 1.5%, effectively acting as a function-routing step, while long CoT reverses the gain, yielding 28.0% wrong selections and 18.0% hallucinated functions at d = 256. Oracle analysis shows that 88.6% of solvable tasks require at most 32 reasoning tokens, with an average of 27.6 tokens, and a finer-grained sweep indicates that the true optimum lies at 8--16 tokens. Motivated by this routing effect, we propose Function-Routing CoT (FR-CoT), a structured brief-CoT method that templates the reasoning phase as "Function: [name] / Key args: [...]," forcing commitment to a valid function name at the start of reasoning. FR-CoT achieves accuracy statistically equivalent to free-form d = 32 CoT while reducing function hallucination to 0.0%, providing a structural reliability guarantee without budget tuning.