One Head, Many Models: Cross-Attention Routing for Cost-Aware LLM Selection

📄 arXiv: 2509.09782v1 📥 PDF

作者: Roshini Pulishetty, Mani Kishan Ghantasala, Keerthy Kaushik Dasoju, Niti Mangwani, Vishal Garimella, Aditya Mate, Somya Chatterjee, Yue Kang, Ehi Nosakhare, Sadid Hasan, Soundar Srinivasan

分类: cs.LG

发布日期: 2025-09-11


💡 一句话要点

提出基于交叉注意力路由的LLM选择框架,实现成本效益优化。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型选择 交叉注意力 成本效益优化 动态路由 RouterBench

📋 核心要点

  1. 现有LLM成本和性能各异,如何在实际应用中进行可扩展、经济高效的部署是一大挑战。
  2. 论文提出利用单头交叉注意力机制,联合建模查询和模型嵌入,动态选择最优LLM。
  3. 实验表明,该方法在RouterBench上实现了显著的性能提升,并提高了成本效益。

📝 摘要(中文)

本文提出了一种统一的路由框架,利用单头交叉注意力机制联合建模查询和模型嵌入,从而为每个输入查询动态选择最优的大语言模型(LLM)。该方法在RouterBench上进行了评估,RouterBench是一个大规模的公开基准,包含多样化的LLM池和领域。通过显式捕获细粒度的查询-模型交互,该路由预测响应质量和生成成本,在平均质量提升(AIQ)方面比现有路由提高了6.6%,在最大性能方面提高了2.9%。为了稳健地平衡性能和成本,本文提出了一种指数奖励函数,增强了用户偏好之间的稳定性。最终的架构是轻量级的,可以有效地跨领域泛化,并且与先前的方法相比提高了效率,为成本感知的LLM路由建立了一个新的标准。

🔬 方法详解

问题定义:现有的大语言模型(LLM)在计算成本和性能方面存在显著差异。在实际应用中,如何根据不同的查询需求,动态地选择最合适的LLM,以在保证性能的同时降低成本,是一个亟待解决的问题。现有的路由方法通常无法充分捕捉查询和模型之间的细粒度交互,导致选择结果不够优化。

核心思路:本文的核心思路是利用交叉注意力机制,显式地建模查询和模型之间的交互关系。通过将查询和模型嵌入作为交叉注意力的输入,可以学习到每个查询与不同模型之间的相关性,从而预测每个模型对于该查询的响应质量和生成成本。基于这些预测,可以选择在性能和成本之间达到最佳平衡的LLM。

技术框架:该框架包含以下主要模块:1) 查询和模型嵌入模块:将输入查询和候选LLM转换为嵌入向量。2) 交叉注意力路由模块:利用单头交叉注意力机制,联合建模查询和模型嵌入,预测响应质量和生成成本。3) 模型选择模块:基于预测的质量和成本,使用指数奖励函数选择最优的LLM。整体流程是,给定一个输入查询,首先将其和候选LLM进行嵌入表示,然后通过交叉注意力路由模块预测每个LLM的质量和成本,最后根据预测结果选择最优的LLM。

关键创新:最重要的技术创新点在于使用单头交叉注意力机制来建模查询和模型之间的细粒度交互。与现有方法相比,该方法能够更准确地预测LLM的响应质量和生成成本,从而实现更优的LLM选择。此外,提出的指数奖励函数能够更稳健地平衡性能和成本,提高用户偏好之间的稳定性。

关键设计:交叉注意力模块使用单头注意力,以降低计算复杂度。指数奖励函数的设计旨在平衡性能和成本,其形式为 exp(α * Quality - β * Cost),其中 α 和 β 是可调节的参数,用于控制对质量和成本的重视程度。RouterBench基准测试用于评估模型的性能,该基准包含多样化的LLM池和领域。

📊 实验亮点

实验结果表明,该方法在RouterBench基准测试中,平均质量提升(AIQ)方面比现有路由提高了6.6%,在最大性能方面提高了2.9%。此外,该方法具有轻量级的架构和良好的泛化能力,能够有效地跨领域应用。与现有方法相比,该方法在效率方面也得到了显著提升。

🎯 应用场景

该研究成果可应用于各种需要动态选择LLM的场景,例如智能客服、内容生成、机器翻译等。通过根据用户查询的特点和成本预算,自动选择最合适的LLM,可以显著提高服务质量和降低运营成本。该技术还有助于推动LLM在资源受限环境下的部署,例如移动设备和边缘计算。

📄 摘要(原文)

The proliferation of large language models (LLMs) with varying computational costs and performance profiles presents a critical challenge for scalable, cost-effective deployment in real-world applications. We introduce a unified routing framework that leverages a single-head cross-attention mechanism to jointly model query and model embeddings, enabling dynamic selection of the optimal LLM for each input query. Our approach is evaluated on RouterBench, a large-scale, publicly available benchmark encompassing diverse LLM pools and domains. By explicitly capturing fine-grained query-model interactions, our router predicts both response quality and generation cost, achieving up to 6.6% improvement in Average Improvement in Quality (AIQ) and 2.9% in maximum performance over existing routers. To robustly balance performance and cost, we propose an exponential reward function that enhances stability across user preferences. The resulting architecture is lightweight, generalizes effectively across domains, and demonstrates improved efficiency compared to prior methods, establishing a new standard for cost-aware LLM routing.