Confidence-Calibrated Small-Large Language Model Collaboration for Cost-Efficient Reasoning
作者: Chuang Zhang, Zizhen Zhu, Yihao Wei, Bing Tian, Junyi Liu, Henan Wang, Xavier Wang, Yaxiao Liu
分类: cs.CL, cs.AI
发布日期: 2026-03-04
备注: Accepted to EACL 2026 Main Conference
💡 一句话要点
提出COREA,通过置信度校准的大小模型协同推理,实现成本效益的复杂推理。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大小模型协同 置信度校准 强化学习 成本效益推理 语言模型 复杂推理 知识问答
📋 核心要点
- 大型语言模型推理能力强但成本高,小型语言模型成本低但能力弱,如何在两者之间取得平衡是核心问题。
- COREA的核心思想是利用小型语言模型快速处理简单问题,并将置信度低的问题交给大型语言模型处理,从而降低总体成本。
- 实验结果表明,COREA在降低成本的同时,能够保持较高的准确率,在数学和非数学数据集上均有显著的成本节约。
📝 摘要(中文)
大型语言模型(LLMs)相比小型语言模型(SLMs)展现出更优越的推理能力,但成本也显著更高。我们提出了协同推理器(COREA),一个将SLM与LLM级联的系统,以在复杂推理任务中实现准确性和成本之间的平衡。COREA首先尝试使用SLM回答问题,SLM输出答案和口头置信度评分。置信度低于预定义阈值的问题被推迟到LLM进行更准确的解决。我们引入了一种基于强化学习的训练算法,通过额外的置信度校准奖励来对齐SLM的置信度。广泛的实验表明,我们的方法共同提高了SLM在不同数据集和模型骨干上的推理能力和置信度校准。与单独使用LLM相比,COREA在领域外数学和非数学数据集上分别降低了21.5%和16.8%的成本,而pass@1的绝对下降幅度仅在2%以内。
🔬 方法详解
问题定义:现有方法在复杂推理任务中,要么只使用大型语言模型,导致成本过高;要么只使用小型语言模型,导致准确率不足。如何在保证准确率的前提下,降低推理成本,是本文要解决的核心问题。现有方法缺乏一种有效的机制,能够根据问题的难易程度,动态地选择合适的模型进行推理,从而实现成本效益的平衡。
核心思路:本文的核心思路是构建一个大小语言模型协同推理的框架,利用小型语言模型快速处理简单问题,并将置信度低的问题交给大型语言模型处理。通过置信度校准,使小型语言模型能够准确地评估自身的能力,从而做出合理的决策。
技术框架:COREA系统包含两个主要模块:小型语言模型(SLM)和大型语言模型(LLM)。SLM首先尝试回答问题,并输出答案和置信度评分。如果SLM的置信度低于预定义的阈值,则将问题传递给LLM进行处理。整个过程形成一个级联的推理流程。
关键创新:本文的关键创新在于引入了基于强化学习的置信度校准算法。该算法通过额外的置信度校准奖励,使SLM能够更准确地评估自身的能力,从而做出更合理的决策。与传统的置信度校准方法不同,本文的方法能够直接优化SLM的置信度,而不需要额外的校准模型。
关键设计:强化学习算法使用策略梯度方法,奖励函数包括两部分:推理准确率奖励和置信度校准奖励。置信度校准奖励旨在惩罚SLM对错误答案给出高置信度,或对正确答案给出低置信度的情况。具体来说,奖励函数可以设计为置信度与准确率之间的相关性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,COREA在领域外数学和非数学数据集上,相比单独使用LLM,分别降低了21.5%和16.8%的成本,而pass@1的绝对下降幅度仅在2%以内。这表明COREA能够在显著降低成本的同时,保持较高的准确率。此外,实验还验证了置信度校准算法的有效性,提高了SLM的推理能力和置信度评估的准确性。
🎯 应用场景
该研究成果可应用于各种需要复杂推理的场景,例如智能客服、自动问答系统、教育辅导等。通过大小模型协同推理,可以在保证服务质量的前提下,显著降低运营成本,提高资源利用率。未来,该方法可以扩展到更多类型的模型和任务,实现更广泛的应用。
📄 摘要(原文)
Large language models (LLMs) demonstrate superior reasoning capabilities compared to small language models (SLMs), but incur substantially higher costs. We propose COllaborative REAsoner (COREA), a system that cascades an SLM with an LLM to achieve a balance between accuracy and cost in complex reasoning tasks. COREA first attempts to answer questions using the SLM, which outputs both an answer and a verbalized confidence score. Questions with confidence below a predefined threshold are deferred to the LLM for more accurate resolution. We introduce a reinforcement learning-based training algorithm that aligns the SLM's confidence through an additional confidence calibration reward. Extensive experiments demonstrate that our method jointly improves the SLM's reasoning ability and confidence calibration across diverse datasets and model backbones. Compared to using the LLM alone, COREA reduces cost by 21.5% and 16.8% on out-of-domain math and non-math datasets, respectively, with only an absolute pass@1 drop within 2%.