Brief Is Better: Non-Monotonic Chain-of-Thought Budget Effects in Function-Calling Language Agents

作者: Xuan Qi

分类: cs.CL

发布日期: 2026-04-02

备注: 21 pages

💡 一句话要点

针对函数调用语言代理，发现适度思维链更优，并提出FR-CoT方法。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 思维链 函数调用 语言代理 非单调性 函数路由 结构化推理 大语言模型

📋 核心要点

现有思维链（CoT）方法在函数调用语言代理中，推理长度与准确率之间的关系尚不明确，存在冗余推理和性能下降的风险。
论文提出Function-Routing CoT (FR-CoT)方法，通过结构化的简短CoT，强制代理在推理开始时确定有效的函数名称，提升路由准确性。
实验表明，适度的思维链（32 tokens）能显著提升准确率，而FR-CoT在保证准确率的同时，有效降低了函数幻觉。

📝 摘要（中文）

本文系统研究了思维链（CoT）预算对函数调用代理性能的影响，通过在Berkeley Function Calling Leaderboard v3 Multiple基准测试的200个任务上，扫描了六个token预算（0-512）。研究发现Qwen2.5-1.5B-Instruct模型表现出显著的非单调模式：简短推理（32个token）相对于直接回答，准确率显著提高45%，从44.0%提升到64.0%，而扩展推理（256个token）则使性能降至低于无CoT基线的25.0%。错误分解揭示了其机制：在d=0时，30.5%的任务失败是因为模型从候选集中选择了错误的函数；简短CoT将此降低到1.5%，有效地充当了函数路由步骤，而长CoT逆转了增益，在d=256时产生28.0%的错误选择和18.0%的幻觉函数。Oracle分析表明，88.6%的可解任务最多需要32个推理token，平均为27.6个token，更细粒度的扫描表明，真正的最佳值位于8-16个token。受此路由效应的启发，本文提出了函数路由CoT（FR-CoT），这是一种结构化的简短CoT方法，它将推理阶段模板化为“函数：[名称]/关键参数：[...]”，从而在推理开始时强制确定有效的函数名称。FR-CoT实现了与自由形式d=32 CoT在统计上相当的准确率，同时将函数幻觉降低到0.0%，从而在没有预算调整的情况下提供了结构可靠性保证。

🔬 方法详解

问题定义：现有思维链方法在函数调用语言代理中，推理长度与准确率之间的关系研究不足。简单地增加推理长度并不总是能提高性能，反而可能导致性能下降，出现错误的函数选择和幻觉函数等问题。因此，需要研究如何有效地利用思维链，在保证准确率的同时，避免冗余推理和错误累积。

核心思路：论文的核心思路是发现并利用“函数路由”效应。研究表明，简短的思维链可以有效地引导模型选择正确的函数，而过长的思维链反而会引入噪声和错误。因此，论文提出一种结构化的简短思维链方法，即Function-Routing CoT (FR-CoT)，强制模型在推理开始时确定有效的函数名称，从而提高函数选择的准确性和可靠性。

技术框架：FR-CoT方法的核心在于对思维链进行结构化设计。具体流程如下：1. 输入：接收任务描述和可用的函数列表。2. 函数路由CoT：使用预定义的模板“函数：[名称]/关键参数：[...]”引导模型进行推理，强制模型首先选择一个有效的函数名称，并提取关键参数。3. 函数调用：根据选择的函数和提取的参数，调用相应的函数。4. 输出：返回函数调用的结果。

关键创新：FR-CoT的关键创新在于其结构化的思维链设计，它将推理过程分解为函数选择和参数提取两个明确的步骤，并强制模型在推理开始时确定函数名称。这种结构化的方法可以有效地减少函数选择的错误和幻觉，提高整体性能。与传统的自由形式思维链相比，FR-CoT更具可控性和可靠性。

关键设计：FR-CoT的关键设计在于其预定义的模板“函数：[名称]/关键参数：[...]”。这个模板强制模型在推理开始时输出函数名称，从而引导模型关注函数选择，并减少后续推理中的错误。此外，论文还通过实验确定了最佳的思维链长度，发现简短的思维链（8-32 tokens）通常能够获得最佳的性能。

📊 实验亮点

实验结果表明，简短的思维链（32 tokens）能够显著提高Qwen2.5-1.5B-Instruct模型的准确率，从44.0%提升到64.0%。而FR-CoT方法在保证准确率与32 tokens的自由形式CoT相当的同时，将函数幻觉降低到0.0%，提供了结构可靠性保证。此外，Oracle分析表明，88.6%的可解任务最多需要32个推理token，进一步验证了简短思维链的有效性。

🎯 应用场景

该研究成果可应用于各种需要语言代理进行函数调用的场景，例如智能助手、自动化客服、智能家居控制等。通过使用FR-CoT方法，可以提高语言代理的准确性和可靠性，减少错误和幻觉，从而提升用户体验和工作效率。此外，该研究也为如何有效地利用思维链提供了新的思路，可以指导未来的语言代理设计。

📄 摘要（原文）

How much should a language agent think before taking action? Chain-of-thought (CoT) reasoning is widely assumed to improve agent performance, but the relationship between reasoning length and accuracy in structured tool-use settings remains poorly understood. We present a systematic study of CoT budget effects on function-calling agents, sweeping six token budgets (0--512) across 200 tasks from the Berkeley Function Calling Leaderboard v3 Multiple benchmark. Our central finding is a striking non-monotonic pattern on Qwen2.5-1.5B-Instruct: brief reasoning (32 tokens) dramatically improves accuracy by 45% relative over direct answers, from 44.0% to 64.0%, while extended reasoning (256 tokens) degrades performance well below the no-CoT baseline, to 25.0% (McNemar p < 0.001). A three-way error decomposition reveals the mechanism. At d = 0, 30.5% of tasks fail because the model selects the wrong function from the candidate set; brief CoT reduces this to 1.5%, effectively acting as a function-routing step, while long CoT reverses the gain, yielding 28.0% wrong selections and 18.0% hallucinated functions at d = 256. Oracle analysis shows that 88.6% of solvable tasks require at most 32 reasoning tokens, with an average of 27.6 tokens, and a finer-grained sweep indicates that the true optimum lies at 8--16 tokens. Motivated by this routing effect, we propose Function-Routing CoT (FR-CoT), a structured brief-CoT method that templates the reasoning phase as "Function: [name] / Key args: [...]," forcing commitment to a valid function name at the start of reasoning. FR-CoT achieves accuracy statistically equivalent to free-form d = 32 CoT while reducing function hallucination to 0.0%, providing a structural reliability guarantee without budget tuning.

Brief Is Better: Non-Monotonic Chain-of-Thought Budget Effects in Function-Calling Language Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理