CARGO: A Framework for Confidence-Aware Routing of Large Language Models

作者: Amine Barrak, Yosr Fourati, Michael Olchawa, Emna Ksontini, Khalil Zoghlami

分类: cs.SE, cs.LG

发布日期: 2025-09-18

期刊: 35th IEEE International Conference on Collaborative Advances in Software and Computing 2025

💡 一句话要点

CARGO：一种置信度感知的LLM路由框架，优化性能与成本。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型路由 动态模型选择 置信度感知 轻量级框架 多模型部署

📋 核心要点

现有LLM路由方法难以在性能、成本和模型专业性之间取得平衡，尤其缺乏对模型置信度的有效利用。
CARGO框架通过训练轻量级回归器预测模型性能，并结合置信度评估，实现动态、成本感知的LLM路由。
实验表明，CARGO在多个LLM上实现了高路由准确率和胜率，证明了其在实际多模型部署中的有效性。

📝 摘要（中文）

随着大型语言模型（LLM）在规模、专业化程度和延迟特性上的迅速发展，如何将用户提示路由到最合适的模型，以平衡性能和成本，变得至关重要。我们提出了CARGO（基于类别感知的、基于差距优化的路由），这是一个轻量级的、置信度感知的动态LLM选择框架。CARGO采用单个基于嵌入的回归器，该回归器基于LLM判断的成对比较进行训练，以预测模型性能，并在预测不确定时调用可选的二元分类器。这种两阶段设计实现了精确的、成本感知的路由，而无需人工标注的监督。为了捕获特定领域的行为，CARGO还支持跨五个任务组（数学、编码、推理、总结和创意写作）训练的特定类别回归器。在四个具有竞争力的LLM（GPT-4o、Claude 3.5 Sonnet、DeepSeek V3和Perplexity Sonar）上进行评估，CARGO实现了76.4%的top-1路由准确率，以及72%到89%的胜率，超过了单个专家模型。这些结果表明，置信度引导的轻量级路由可以以最小的开销实现专家级的性能，为实际的多模型LLM部署提供了一个实用的解决方案。

🔬 方法详解

问题定义：论文旨在解决在多LLM部署场景下，如何根据用户prompt动态选择最优LLM的问题。现有方法通常依赖人工标注数据或复杂的模型集成，成本高昂且难以适应快速变化的LLM格局。此外，现有方法很少考虑模型预测的置信度，可能导致次优选择。

核心思路：CARGO的核心思路是训练一个轻量级的、置信度感知的路由模型，该模型能够预测不同LLM在给定prompt上的性能，并根据预测结果和置信度进行动态选择。通过使用LLM自身作为标注器，避免了人工标注的成本。

技术框架：CARGO框架包含两个主要阶段：1) 性能预测阶段：使用基于嵌入的回归器预测不同LLM在给定prompt上的性能得分。该回归器基于LLM判断的成对比较数据进行训练。2) 置信度评估阶段：当回归器的预测置信度较低时，激活一个二元分类器，用于进一步判断是否需要切换到更可靠的模型。此外，CARGO还支持针对不同任务类别训练独立的回归器，以捕获领域特定行为。

关键创新：CARGO的关键创新在于其置信度感知的路由策略和轻量级的设计。通过引入置信度评估，CARGO能够避免选择预测不确定性高的模型，从而提高整体性能。轻量级的设计使得CARGO能够以较低的计算成本实现高效的路由。此外，利用LLM自身进行标注，避免了人工标注的瓶颈。

关键设计：回归器使用预训练的句子嵌入模型（例如Sentence-BERT）将prompt编码为向量表示，然后使用一个简单的线性层或多层感知机预测性能得分。二元分类器可以使用任何标准的分类算法，例如逻辑回归或支持向量机。损失函数通常采用均方误差或交叉熵损失。对于类别特定的回归器，可以采用多任务学习的方法进行联合训练。

📊 实验亮点

CARGO在四个具有竞争力的LLM（GPT-4o、Claude 3.5 Sonnet、DeepSeek V3和Perplexity Sonar）上进行了评估，实现了76.4%的top-1路由准确率。CARGO的胜率在72%到89%之间，超过了单个专家模型。这些结果表明，CARGO能够有效地选择最优LLM，并在性能上超越单个专家模型。

🎯 应用场景

CARGO框架可应用于各种需要动态选择LLM的场景，例如智能客服、内容生成、代码辅助等。通过优化LLM的选择，可以显著提高用户体验，降低计算成本，并充分利用不同LLM的专业能力。未来，该框架可以扩展到支持更多类型的模型和任务，并与其他优化技术相结合，进一步提升性能。

📄 摘要（原文）

As large language models (LLMs) proliferate in scale, specialization, and latency profiles, the challenge of routing user prompts to the most appropriate model has become increasingly critical for balancing performance and cost. We introduce CARGO (Category-Aware Routing with Gap-based Optimization), a lightweight, confidence-aware framework for dynamic LLM selection. CARGO employs a single embedding-based regressor trained on LLM-judged pairwise comparisons to predict model performance, with an optional binary classifier invoked when predictions are uncertain. This two-stage design enables precise, cost-aware routing without the need for human-annotated supervision. To capture domain-specific behavior, CARGO also supports category-specific regressors trained across five task groups: mathematics, coding, reasoning, summarization, and creative writing. Evaluated on four competitive LLMs (GPT-4o, Claude 3.5 Sonnet, DeepSeek V3, and Perplexity Sonar), CARGO achieves a top-1 routing accuracy of 76.4% and win rates ranging from 72% to 89% against individual experts. These results demonstrate that confidence-guided, lightweight routing can achieve expert-level performance with minimal overhead, offering a practical solution for real-world, multi-model LLM deployments.

CARGO: A Framework for Confidence-Aware Routing of Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册