Agentic Tool Use in Large Language Models

作者: Jinchao Hu, Meizhi Zhong, Kehai Chen, Xuefeng Bai, Min Zhang

分类: cs.CL

发布日期: 2026-04-01

💡 一句话要点

综述性研究：大型语言模型中的Agentic工具使用方法与演进

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 Agentic工具使用 提示工程 监督学习 强化学习 自主Agent 文献综述

📋 核心要点

现有大型语言模型在工具使用方面研究分散，缺乏统一的视角来理解不同方法之间的差异和演进。
本文将现有方法归纳为三种范式：提示工程、监督学习和强化学习，并分析了它们的优缺点。
论文旨在通过对现有文献的系统性回顾，为Agentic工具使用的未来研究方向提供指导。

📝 摘要（中文）

大型语言模型越来越多地被部署为自主Agent，但其在现实世界中的有效性取决于信息检索、计算和外部行动等可靠工具。现有的研究在任务、工具类型和训练设置方面仍然是分散的，缺乏对工具使用方法如何不同和演变的统一视角。本文将文献组织为三种范式：提示作为即插即用、监督工具学习和奖励驱动的工具策略学习，分析它们的方法、优势和失效模式，回顾评估现状并强调关键挑战，旨在解决这种碎片化，并提供Agentic工具使用更结构化的演进视角。

🔬 方法详解

问题定义：现有的大型语言模型在作为自主Agent时，需要使用各种工具来完成任务，例如信息检索、计算和执行外部操作。然而，现有的研究工作非常分散，针对不同的任务、工具类型和训练设置，缺乏一个统一的框架来理解和比较这些方法。这使得研究人员难以了解不同工具使用方法的优缺点，以及它们之间的演进关系。

核心思路：本文的核心思路是将现有的工具使用方法归纳为三种主要的范式：(1) 提示作为即插即用，利用提示工程引导LLM使用工具；(2) 监督工具学习，通过监督学习的方式训练LLM学会使用工具；(3) 奖励驱动的工具策略学习，使用强化学习训练LLM学会选择和使用工具。通过分析这三种范式的特点、优势和局限性，为研究人员提供一个更清晰的工具使用方法演进图景。

技术框架：本文主要是一个文献综述，其技术框架体现在对现有文献的组织和分析上。具体来说，它首先定义了Agentic工具使用的概念，然后将现有方法划分为上述三种范式。对于每种范式，文章会详细介绍其代表性方法，分析其优势和劣势，并讨论其适用场景。此外，文章还回顾了现有的评估方法，并指出了当前研究面临的关键挑战。

关键创新：本文的创新之处在于它提供了一个统一的框架来理解和比较不同的Agentic工具使用方法。通过将现有方法归纳为三种范式，文章帮助研究人员更好地了解不同方法之间的差异和演进关系。此外，文章还指出了当前研究面临的关键挑战，为未来的研究方向提供了指导。

关键设计：本文主要是一个综述性文章，没有提出新的算法或模型。其关键设计体现在对现有文献的组织和分析上。例如，文章对每种范式都进行了详细的案例分析，并总结了其优势和劣势。此外，文章还对现有的评估方法进行了批判性分析，并提出了改进建议。

🖼️ 关键图片

📊 实验亮点

本文是一篇综述性文章，没有提供具体的实验结果。其亮点在于对现有Agentic工具使用方法的系统性总结和分析，为未来的研究提供了清晰的路线图。通过对三种范式的比较，研究人员可以更好地了解不同方法的优缺点，并选择最适合自己任务的方法。

🎯 应用场景

该研究成果对开发更智能、更自主的Agent具有重要意义。通过更好地理解和利用各种工具，Agent可以在信息检索、问题求解、决策制定等领域发挥更大的作用。例如，可以应用于智能客服、自动化办公、智能家居等场景，提高工作效率和生活质量。

📄 摘要（原文）

Large language models are increasingly being deployed as autonomous agents yet their real world effectiveness depends on reliable tools for information retrieval, computation and external action. Existing studies remain fragmented across tasks, tool types, and training settings, lacking a unified view of how tool-use methods differ and evolve. This paper organizes the literature into three paradigms: prompting as plug-and-play, supervised tool learning and reward-driven tool policy learning, analyzes their methods, strengths and failure modes, reviews the evaluation landscape and highlights key challenges, aiming to address this fragmentation and provide a more structured evolutionary view of agentic tool use.

Agentic Tool Use in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理