Atlas: Orchestrating Heterogeneous Models and Tools for Multi-Domain Complex Reasoning

📄 arXiv: 2601.03872v1 📥 PDF

作者: Jinyang Wu, Guocheng Zhai, Ruihan Jin, Jiahao Yuan, Yuhao Shen, Shuai Zhang, Zhengqi Wen, Jianhua Tao

分类: cs.CL

发布日期: 2026-01-07


💡 一句话要点

提出ATLAS以解决异构模型与工具的动态选择问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 工具选择 动态路由 跨域推理 强化学习 多模态融合 视觉推理 高维优化

📋 核心要点

  1. 现有方法在选择最佳模型-工具组合时面临高维优化挑战,未能充分利用异构模型-工具对的性能差异。
  2. 本文提出ATLAS,通过训练无关的聚类路由和基于强化学习的多步路由,实现动态工具使用,提升跨域推理能力。
  3. 在15个基准测试中,ATLAS在分布内和分布外任务上分别提升了10.1%和13.1%,并在视觉推理上表现出显著优势。

📝 摘要(中文)

随着大型语言模型(LLMs)与外部工具的集成,AI代理的能力得到了显著扩展。然而,随着LLMs和工具的多样性增加,选择最佳的模型-工具组合成为高维优化挑战。现有方法通常依赖单一模型或固定的工具调用逻辑,未能充分利用异构模型-工具对的性能差异。本文提出了ATLAS(自适应工具-LLM对齐与协同调用),一个用于跨域复杂推理的动态工具使用双路径框架。ATLAS通过训练无关的基于聚类的路由和基于强化学习的多步路由,展示了在15个基准测试中的优越性能,超越了闭源模型如GPT-4o,并在分布内和分布外任务上分别提升了10.1%和13.1%。此外,该框架在视觉推理方面也显示出显著提升。

🔬 方法详解

问题定义:本文旨在解决在多样化的LLMs和工具中,如何选择最佳模型-工具组合的问题。现有方法往往依赖单一模型或固定的调用逻辑,无法充分利用不同模型-工具对的性能差异。

核心思路:ATLAS采用双路径框架,结合训练无关的聚类路由和基于强化学习的多步路由,动态选择最优工具以适应不同的推理任务。这样的设计使得系统能够在不同领域中实现更好的性能和灵活性。

技术框架:ATLAS的整体架构包括两个主要模块:第一,训练无关的基于聚类的路由模块,利用领域特定的经验先验进行对齐;第二,基于强化学习的多步路由模块,探索自主轨迹以实现分布外泛化。

关键创新:ATLAS的主要创新在于其双路径框架,能够在动态环境中自适应选择工具,显著提升了推理的准确性和效率。这与现有方法的固定调用逻辑形成了鲜明对比。

关键设计:在设计中,ATLAS采用了聚类算法进行初步路由,并通过强化学习优化后续的工具选择过程。具体的参数设置和损失函数设计尚未详细披露,可能为未知。整体网络结构则围绕双路径设计展开,确保了灵活性与高效性。

📊 实验亮点

ATLAS在15个基准测试中表现优异,超越了闭源模型如GPT-4o,分布内任务提升10.1%,分布外任务提升13.1%。此外,ATLAS在视觉推理方面的表现也显著优于现有路由方法,展示了其在多模态工具协同使用上的优势。

🎯 应用场景

ATLAS的研究成果在多个领域具有潜在应用价值,包括智能客服、自动化决策支持系统以及复杂任务的多模态推理等。通过动态选择最优工具,ATLAS能够提升AI代理在实际应用中的表现,推动智能系统的进一步发展。

📄 摘要(原文)

The integration of large language models (LLMs) with external tools has significantly expanded the capabilities of AI agents. However, as the diversity of both LLMs and tools increases, selecting the optimal model-tool combination becomes a high-dimensional optimization challenge. Existing approaches often rely on a single model or fixed tool-calling logic, failing to exploit the performance variations across heterogeneous model-tool pairs. In this paper, we present ATLAS (Adaptive Tool-LLM Alignment and Synergistic Invocation), a dual-path framework for dynamic tool usage in cross-domain complex reasoning. ATLAS operates via a dual-path approach: (1) \textbf{training-free cluster-based routing} that exploits empirical priors for domain-specific alignment, and (2) \textbf{RL-based multi-step routing} that explores autonomous trajectories for out-of-distribution generalization. Extensive experiments across 15 benchmarks demonstrate that our method outperforms closed-source models like GPT-4o, surpassing existing routing methods on both in-distribution (+10.1%) and out-of-distribution (+13.1%) tasks. Furthermore, our framework shows significant gains in visual reasoning by orchestrating specialized multi-modal tools.