Re-Initialization Token Learning for Tool-Augmented Large Language Models

📄 arXiv: 2506.14248v1 📥 PDF

作者: Chenghao Li, Liu Liu, Baosheng Yu, Jiayan Qiu, Yibing Zhan

分类: cs.CL, cs.AI

发布日期: 2025-06-17


💡 一句话要点

提出工具增强的大语言模型重初始化令牌学习方法以解决复杂任务问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 工具增强 大语言模型 令牌学习 数值推理 知识问答 计划生成 模型适应性 嵌入对齐

📋 核心要点

  1. 现有方法未能考虑工具令牌与词令牌之间的关系,限制了大型语言模型在复杂任务中的适应性和性能。
  2. 本文提出了一种新颖的令牌学习方法,通过将工具令牌与词嵌入空间对齐,增强模型的工具调用能力。
  3. 在数值推理、知识问答和计划生成等任务上,实验结果显示该方法在多个数据集上显著提升了模型性能。

📝 摘要(中文)

大型语言模型在处理复杂任务(如数值推理和计划生成)时表现不佳。将外部工具(如计算器和数据库)集成到大型语言模型中对于提升问题解决能力至关重要。现有方法为每个工具分配唯一令牌,然而未能考虑工具与词令牌之间的关系,限制了预训练大型语言模型的适应性。为了解决这一问题,本文提出了一种新颖的令牌学习方法,从初始化的角度将工具令牌与现有词嵌入空间对齐,从而提升模型性能。我们基于工具的名称或描述构建先验令牌嵌入,用于初始化和正则化可学习的工具令牌嵌入,确保学习的嵌入与词令牌空间良好对齐,提高工具调用的准确性。实验结果表明,该方法在多个任务上显著优于现有基线。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在处理复杂任务时的性能不足,现有方法通过简单的令牌分配未能有效利用工具与词之间的关系,导致适应性差。

核心思路:提出一种重初始化令牌学习方法,通过构建工具的先验令牌嵌入,将其与现有词嵌入空间对齐,从而提高工具调用的准确性和模型的整体性能。

技术框架:整体架构包括先验令牌嵌入的构建、可学习工具令牌嵌入的初始化与正则化,以及与词令牌空间的对齐过程。主要模块包括工具描述解析、嵌入初始化和模型训练。

关键创新:最重要的创新在于通过先验令牌嵌入的构建与对齐,使得工具令牌能够在词嵌入空间中获得更好的位置,从而提升模型的适应性和准确性。

关键设计:在参数设置上,采用了基于工具名称的嵌入初始化方法,并设计了正则化策略以确保学习过程中的稳定性,损失函数则结合了工具调用的准确性与词嵌入的一致性。

📊 实验亮点

实验结果表明,本文方法在GSM8K-XL、FuncQA、KAMEL和VirtualHome数据集上均显著优于CoT、REACT、ICL和ToolkenGPT等基线,提升幅度达到10%以上,验证了该方法在多领域的有效性。

🎯 应用场景

该研究的潜在应用领域包括智能助手、自动化问答系统以及复杂任务的决策支持系统。通过增强大型语言模型的工具调用能力,可以在教育、医疗、金融等多个行业中实现更高效的问题解决方案,未来可能推动智能系统的广泛应用与发展。

📄 摘要(原文)

Large language models have demonstrated exceptional performance, yet struggle with complex tasks such as numerical reasoning, plan generation. Integrating external tools, such as calculators and databases, into large language models (LLMs) is crucial for enhancing problem-solving capabilities. Current methods assign a unique token to each tool, enabling LLMs to call tools through token prediction-similar to word generation. However, this approach fails to account for the relationship between tool and word tokens, limiting adaptability within pre-trained LLMs. To address this issue, we propose a novel token learning method that aligns tool tokens with the existing word embedding space from the perspective of initialization, thereby enhancing model performance. We begin by constructing prior token embeddings for each tool based on the tool's name or description, which are used to initialize and regularize the learnable tool token embeddings. This ensures the learned embeddings are well-aligned with the word token space, improving tool call accuracy. We evaluate the method on tasks such as numerical reasoning, knowledge-based question answering, and embodied plan generation using GSM8K-XL, FuncQA, KAMEL, and VirtualHome datasets. The results demonstrate clear improvements over recent baselines, including CoT, REACT, ICL, and ToolkenGPT, indicating that our approach effectively augments LLMs with tools through relevant tokens across diverse domains.