Detecting (Un)answerability in Large Language Models with Linear Directions
作者: Maor Juliet Lavi, Tova Milo, Mor Geva
分类: cs.CL
发布日期: 2025-09-26
💡 一句话要点
利用线性方向检测大语言模型在抽取式问答中的不可回答性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 不可回答性检测 抽取式问答 线性方向 激活空间
📋 核心要点
- 现有大语言模型在信息不足时仍会自信回答,产生幻觉,缺乏有效的不确定性判断机制。
- 论文提出一种简单方法,通过识别模型激活空间中代表不可回答性的线性方向进行分类。
- 实验表明,该方法在检测不可回答问题上优于现有方法,并具有更好的泛化能力。
📝 摘要(中文)
大型语言模型(LLMs)即使在缺乏必要信息时,也常常自信地回答问题,导致产生幻觉答案。本文研究了(不可)回答性检测问题,重点关注抽取式问答(QA),即模型应确定段落是否包含回答给定问题所需的足够信息。我们提出了一种简单的方法,用于识别模型激活空间中捕获不可回答性的方向,并将其用于分类。通过在推理过程中应用激活添加并测量其对模型放弃行为的影响来选择该方向。我们表明,将隐藏激活投影到该方向上可以产生可靠的(不可)回答性分类分数。在两个开源LLM和四个抽取式QA基准上的实验表明,我们的方法有效地检测不可回答的问题,并且比现有的基于提示和基于分类器的方法具有更好的跨数据集泛化能力。此外,所获得的方向超越了抽取式QA,扩展到源于缺乏科学共识和主观性等因素的不可回答性。最后,因果干预表明,添加或消融方向可以有效地控制模型的放弃行为。
🔬 方法详解
问题定义:论文旨在解决抽取式问答中,大型语言模型无法准确判断问题是否可回答的问题。现有方法,如基于提示或分类器的方法,泛化能力较弱,难以适应不同数据集和类型的不可回答问题。
核心思路:核心思路是在模型的激活空间中找到一个线性方向,该方向能够有效区分可回答和不可回答的问题。通过激活添加并观察模型的放弃行为,来确定这个方向。将隐藏层的激活向量投影到这个方向上,得到一个分数,用于判断问题是否可回答。
技术框架:该方法主要包含以下几个阶段:1. 方向选择:通过在推理过程中对模型进行激活添加,并观察模型的回答变化,选择能够有效影响模型放弃行为的线性方向。2. 分数计算:将模型的隐藏层激活向量投影到选定的线性方向上,得到一个标量分数。3. 分类:使用该分数作为判断问题是否可回答的依据,设置阈值进行分类。
关键创新:关键创新在于利用激活空间中的线性方向来表示不可回答性。这种方法不需要额外的训练数据或复杂的模型结构,而是直接利用了预训练模型的内部表示。与现有方法相比,该方法更加简单、高效,并且具有更好的泛化能力。
关键设计:方向选择的关键在于如何有效地添加激活。论文采用了一种基于梯度的激活添加方法,通过计算模型输出对隐藏层激活的梯度,来确定添加激活的方向和大小。此外,论文还探索了不同的隐藏层和激活添加策略,以找到最佳的线性方向。
📊 实验亮点
实验结果表明,该方法在四个抽取式QA基准测试中均优于现有的基于提示和基于分类器的方法,尤其在跨数据集泛化方面表现突出。此外,该方法还能有效检测源于缺乏科学共识和主观性的不可回答问题,并可通过因果干预有效控制模型的放弃行为。
🎯 应用场景
该研究成果可应用于提升问答系统的可靠性,减少大语言模型的幻觉问题。例如,在医疗咨询、金融分析等对准确性要求高的领域,可以利用该方法过滤掉模型无法可靠回答的问题,避免误导用户。此外,该方法还可以用于评估大语言模型对不同类型问题的理解能力。
📄 摘要(原文)
Large language models (LLMs) often respond confidently to questions even when they lack the necessary information, leading to hallucinated answers. In this work, we study the problem of (un)answerability detection, focusing on extractive question answering (QA) where the model should determine if a passage contains sufficient information to answer a given question. We propose a simple approach for identifying a direction in the model's activation space that captures unanswerability and uses it for classification. This direction is selected by applying activation additions during inference and measuring their impact on the model's abstention behavior. We show that projecting hidden activations onto this direction yields a reliable score for (un)answerability classification. Experiments on two open-weight LLMs and four extractive QA benchmarks show that our method effectively detects unanswerable questions and generalizes better across datasets than existing prompt-based and classifier-based approaches. Moreover, the obtained directions extend beyond extractive QA to unanswerability that stems from factors, such as lack of scientific consensus and subjectivity. Last, causal interventions show that adding or ablating the directions effectively controls the abstention behavior of the model.