Representing LLMs in Prompt Semantic Task Space

作者: Idan Kashani, Avi Mendelson, Yaniv Nemcovsky

分类: cs.CL, cs.LG

发布日期: 2025-09-26

备注: Accepted to Findings of the Association for Computational Linguistics: EMNLP 2025

DOI: 10.18653/v1/2025.findings-emnlp.456

💡 一句话要点

提出一种免训练方法，将LLM表示为提示语义任务空间中的线性算子，用于模型选择。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 模型表示 提示工程 模型选择 零样本学习

📋 核心要点

现有LLM表示学习方法可扩展性差，需昂贵的再训练以适应新模型和数据集，且表示空间难以解释。
提出将LLM表示为提示语义任务空间中的线性算子，无需训练，利用几何属性的闭式计算。
在成功预测和模型选择任务上验证，实现了有竞争力的或最先进的性能，尤其在样本外场景中表现突出。

📝 摘要（中文）

大型语言模型（LLM）在各种任务上取得了令人瞩目的成果，并且不断扩大的公共存储库中包含了大量的预训练模型。因此，为给定任务识别最佳性能的LLM是一个重大的挑战。先前的工作已经提出了学习LLM表示来解决这个问题。然而，这些方法的可扩展性有限，并且需要昂贵的再训练才能包含额外的模型和数据集。此外，生成的表示利用了难以解释的不同空间。这项工作提出了一种高效的、免训练的方法，将LLM表示为提示语义任务空间中的线性算子，从而提供了模型应用的高度可解释的表示。我们的方法利用几何属性的闭式计算，并确保卓越的可扩展性和实时适应动态扩展的存储库。我们在成功预测和模型选择任务上展示了我们的方法，在样本外场景中取得了有竞争力的或最先进的结果，并具有显著的性能。

🔬 方法详解

问题定义：现有方法在为特定任务选择最佳LLM时面临挑战。已有的LLM表示学习方法可扩展性差，需要大量计算资源进行再训练以适应新的模型和数据集。此外，这些方法产生的表示位于不同的空间中，缺乏可解释性，难以直接用于模型选择和性能预测。

核心思路：该论文的核心思路是将LLM视为提示语义任务空间上的线性算子。通过分析LLM对不同提示的响应，提取其在语义空间中的几何属性，从而构建LLM的表示。这种表示方法无需训练，可以快速适应新的LLM和任务。

技术框架：该方法主要包含以下几个阶段：1. 定义提示语义任务空间：选择一组具有代表性的提示，构成任务空间的基础。2. LLM响应收集：使用不同的LLM对这些提示进行响应，记录输出结果。3. 几何属性计算：基于LLM的响应，计算其在提示语义任务空间中的几何属性，例如线性变换矩阵。4. LLM表示构建：将计算得到的几何属性作为LLM的表示。

关键创新：该方法最重要的创新在于提出了将LLM表示为提示语义任务空间中的线性算子的思想。与现有方法相比，该方法无需训练，具有更好的可扩展性和可解释性。此外，该方法利用几何属性的闭式计算，可以高效地构建LLM的表示。

关键设计：该方法的关键设计包括：1. 提示的选择：选择具有代表性的提示，以覆盖任务空间的不同方面。2. 几何属性的计算：选择合适的几何属性，以反映LLM在任务空间中的行为。3. 线性算子的构建：使用计算得到的几何属性，构建LLM的线性算子表示。

📊 实验亮点

该方法在成功预测和模型选择任务上取得了有竞争力的或最先进的结果。尤其在样本外场景中，该方法表现出显著的性能优势，表明其具有良好的泛化能力。实验结果验证了该方法在LLM表示学习方面的有效性和实用性。

🎯 应用场景

该研究成果可应用于LLM模型选择、性能预测和模型优化等领域。例如，可以根据任务需求，快速选择最适合的LLM模型，提高任务完成效率。此外，该方法还可以用于分析LLM的优势和劣势，为模型改进提供指导。未来，该方法可以扩展到更广泛的自然语言处理任务和模型。

📄 摘要（原文）

Large language models (LLMs) achieve impressive results over various tasks, and ever-expanding public repositories contain an abundance of pre-trained models. Therefore, identifying the best-performing LLM for a given task is a significant challenge. Previous works have suggested learning LLM representations to address this. However, these approaches present limited scalability and require costly retraining to encompass additional models and datasets. Moreover, the produced representation utilizes distinct spaces that cannot be easily interpreted. This work presents an efficient, training-free approach to representing LLMs as linear operators within the prompts' semantic task space, thus providing a highly interpretable representation of the models' application. Our method utilizes closed-form computation of geometrical properties and ensures exceptional scalability and real-time adaptability to dynamically expanding repositories. We demonstrate our approach on success prediction and model selection tasks, achieving competitive or state-of-the-art results with notable performance in out-of-sample scenarios.

Representing LLMs in Prompt Semantic Task Space

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册