No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes
作者: Iván Vicente Moreno Cencerrado, Arnau Padrés Masdemont, Anton Gonzalvez Hawthorne, David Demitri Africa, Lorenzo Pacchiardi
分类: cs.CL, cs.AI
发布日期: 2025-09-12
💡 一句话要点
仅凭问题预测LLM答案准确性:线性探针揭示模型内部置信度
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 答案准确性预测 线性探针 模型置信度 内部机制 可解释性 分布外泛化
📋 核心要点
- 现有方法难以在不生成答案的情况下预测LLM答案的准确性,限制了对模型内部置信度评估机制的理解。
- 该论文提出一种基于问题本身训练线性探针的方法,通过分析模型在问题读取后的激活值来预测答案的正确性。
- 实验表明,该方法在多个数据集上优于黑盒基线,且能有效预测模型是否会回答“我不知道”,揭示了模型内部置信度的形成过程。
📝 摘要(中文)
本文研究大型语言模型(LLM)是否能预判自身答案的正确性。研究人员在模型读取问题后、生成任何token前提取激活值,并训练线性探针来预测模型即将给出的答案是否正确。实验结果表明,在70亿到700亿参数的三个开源模型家族中,基于通用琐事问题训练的“预先正确性方向”预测器,能够有效预测模型在同分布和各种分布外知识数据集上的表现,优于黑盒基线和口头置信度预测。预测能力在中间层达到饱和,表明自我评估能力在计算过程中逐渐显现。值得注意的是,该方法在需要数学推理的问题上泛化能力较差。此外,模型回答“我不知道”与探针分数高度相关,表明同一方向也捕捉到了置信度。本研究通过探针和稀疏自编码器,补充了先前关于真实性和其他行为的结果,为阐明LLM内部机制做出了重要贡献。
🔬 方法详解
问题定义:论文旨在解决如何仅通过输入问题,在LLM生成答案之前,预测其答案的准确性。现有方法通常依赖于黑盒评估或需要模型生成答案后进行评估,无法直接洞察模型内部的置信度评估机制,也无法提前干预可能出现的错误答案。
核心思路:论文的核心思路是,LLM在处理问题时,其内部激活状态包含了关于答案正确性的信息。通过训练一个简单的线性探针,学习从这些激活状态到答案正确性的映射关系,从而实现仅凭问题预测答案准确性的目标。这种方法假设模型在生成答案之前已经对答案的置信度有了一定的评估。
技术框架:整体框架包括以下几个步骤:1) 给定一个问题,将其输入到LLM中;2) 在LLM的特定层提取激活向量;3) 使用提取的激活向量训练一个线性探针,以预测答案的正确性;4) 使用训练好的线性探针预测新问题的答案正确性,并与实际答案进行比较,评估预测性能。论文在多个LLM模型家族和数据集上进行了实验。
关键创新:最重要的创新点在于,它证明了仅凭问题本身,就可以预测LLM答案的准确性。这表明LLM在生成答案之前,已经对答案的置信度有了一定的评估,并且这种评估信息隐藏在模型的内部激活状态中。与现有方法相比,该方法不需要生成答案,可以直接洞察模型内部的置信度评估机制。
关键设计:论文的关键设计包括:1) 选择合适的LLM层提取激活向量。实验表明,中间层的激活向量包含的信息最为丰富;2) 使用线性探针进行预测,保证了模型的简单性和可解释性;3) 使用通用琐事问题训练探针,并在各种分布外知识数据集上进行测试,评估模型的泛化能力;4) 探针的训练目标是二分类问题,即预测答案是否正确。
📊 实验亮点
实验结果表明,基于通用琐事问题训练的线性探针,能够有效预测模型在同分布和各种分布外知识数据集上的表现,优于黑盒基线和口头置信度预测。预测能力在中间层达到饱和,表明自我评估能力在计算过程中逐渐显现。此外,模型回答“我不知道”与探针分数高度相关,表明同一方向也捕捉到了置信度。
🎯 应用场景
该研究成果可应用于LLM的可靠性评估、错误检测与纠正。例如,在LLM生成答案之前,利用该方法预测答案的准确性,如果预测结果不佳,可以采取措施(如重新提问、使用不同的模型等)避免错误答案的产生。此外,该方法还可以用于研究LLM内部的置信度评估机制,从而更好地理解和控制LLM的行为。
📄 摘要(原文)
Do large language models (LLMs) anticipate when they will answer correctly? To study this, we extract activations after a question is read but before any tokens are generated, and train linear probes to predict whether the model's forthcoming answer will be correct. Across three open-source model families ranging from 7 to 70 billion parameters, projections on this "in-advance correctness direction" trained on generic trivia questions predict success in distribution and on diverse out-of-distribution knowledge datasets, outperforming black-box baselines and verbalised predicted confidence. Predictive power saturates in intermediate layers, suggesting that self-assessment emerges mid-computation. Notably, generalisation falters on questions requiring mathematical reasoning. Moreover, for models responding "I don't know", doing so strongly correlates with the probe score, indicating that the same direction also captures confidence. By complementing previous results on truthfulness and other behaviours obtained with probes and sparse auto-encoders, our work contributes essential findings to elucidate LLM internals.