Estimating LLM Consistency: A User Baseline vs Surrogate Metrics

📄 arXiv: 2505.23799v4 📥 PDF

作者: Xiaoyuan Wu, Weiran Lin, Omer Akgul, Lujo Bauer

分类: cs.CL, cs.AI, cs.HC, cs.LG

发布日期: 2025-05-26 (更新: 2025-11-21)

备注: Published as a main conference paper at EMNLP 2025

DOI: 10.18653/v1/2025.emnlp-main.1554


💡 一句话要点

提出基于logit的集成方法以评估LLM一致性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 一致性评估 logit集成 用户研究 自然语言处理

📋 核心要点

  1. 现有方法在测量LLM响应一致性时,通常与用户的感知存在显著差距,导致评估结果不可靠。
  2. 本文提出了一种基于logit的集成方法,旨在更准确地估计LLM的一致性,提升与用户感知的一致性。
  3. 实验结果表明,所提方法在估计人类对LLM一致性评分的表现上,与现有最佳指标相当,显示出良好的有效性。

📝 摘要(中文)

大型语言模型(LLM)容易出现幻觉,并对提示扰动敏感,导致生成文本不一致或不可靠。为了解决这一问题,本文通过用户研究(n=2,976)发现,现有的一致性测量方法与用户对LLM一致性的感知不匹配。我们提出了一种基于logit的集成方法来评估LLM一致性,并证明该方法在估计人类对LLM一致性评分的表现上与现有最佳指标相当。研究结果表明,依赖自动化一致性指标的评估方法存在不足,强调了引入人类评估的重要性。

🔬 方法详解

问题定义:本文旨在解决现有LLM一致性测量方法与用户感知之间的不匹配问题。现有方法主要依赖于响应概率、内部状态分析或logits评估,存在准确性不足的痛点。

核心思路:我们提出了一种基于logit的集成方法,通过综合多个logit值来更准确地评估LLM的一致性。这种设计旨在更好地反映用户对一致性的主观感知。

技术框架:该方法的整体架构包括数据收集、logit计算、集成评估和用户反馈四个主要模块。首先收集LLM生成的响应,然后计算其logit值,最后通过集成算法评估一致性。

关键创新:最重要的技术创新在于提出了logit集成方法,这与传统的单一概率计算方法本质上不同,能够更全面地捕捉模型响应的一致性。

关键设计:在方法设计中,我们设置了多个参数以优化logit集成过程,并采用了特定的损失函数来提升一致性评估的准确性。

📊 实验亮点

实验结果显示,所提基于logit的集成方法在估计人类对LLM一致性评分的表现上,与现有最佳指标相当,表明该方法具有良好的有效性和实用性。具体而言,该方法在一致性评估中的准确率显著提升,能够更好地反映用户的真实感知。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统和文本生成等。通过更准确地评估LLM的一致性,可以提高模型的可靠性,进而提升用户体验和信任度。未来,随着模型的不断发展,该方法可能成为评估LLM性能的重要工具。

📄 摘要(原文)

Large language models (LLMs) are prone to hallucinations and sensitive to prompt perturbations, often resulting in inconsistent or unreliable generated text. Different methods have been proposed to mitigate such hallucinations and fragility, one of which is to measure the consistency of LLM responses -- the model's confidence in the response or likelihood of generating a similar response when resampled. In previous work, measuring LLM response consistency often relied on calculating the probability of a response appearing within a pool of resampled responses, analyzing internal states, or evaluating logits of responses. However, it was not clear how well these approaches approximated users' perceptions of consistency of LLM responses. To find out, we performed a user study ($n=2,976$) demonstrating that current methods for measuring LLM response consistency typically do not align well with humans' perceptions of LLM consistency. We propose a logit-based ensemble method for estimating LLM consistency and show that our method matches the performance of the best-performing existing metric in estimating human ratings of LLM consistency. Our results suggest that methods for estimating LLM consistency without human evaluation are sufficiently imperfect to warrant broader use of evaluation with human input; this would avoid misjudging the adequacy of models because of the imperfections of automated consistency metrics.