When Meaning Stays the Same, but Models Drift: Evaluating Quality of Service under Token-Level Behavioral Instability in LLMs

📄 arXiv: 2506.10095v1 📥 PDF

作者: Xiao Li, Joel Kreuzwieser, Alan Peters

分类: cs.CL

发布日期: 2025-06-11

备注: This paper was developed for presentation at ICML 2025 Tokshop Workshop, but is now submitted as a standalone contribution


💡 一句话要点

提出PBSS框架以评估LLMs在语义等价提示下的行为漂移

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 提示变异 行为漂移 模型评估 语义等价

📋 核心要点

  1. 现有方法未能充分评估大型语言模型在语义等价提示下的行为稳定性,导致服务质量不一致。
  2. 论文提出PBSS框架,通过分析语义等价提示的响应变化,揭示模型特定的行为漂移。
  3. 实验结果显示,PBSS在十个任务中揭示了模型响应的统计规律,强调了词元化和解码对模型稳定性的影响。

📝 摘要(中文)

本研究探讨了大型语言模型(LLMs)如何响应仅在词元层面上有所不同但保持相同语义意图的提示,即提示变异现象。我们提出了提示基础语义偏移(PBSS)框架,用于测量LLMs在语义等价提示重述下的行为漂移。通过应用于十个受限任务,PBSS揭示了一致的、特定于模型的响应变化,表明与词元化和解码相关的统计规律。这些结果突显了在重述下模型评估稳定性的一个被忽视的维度,并建议词元化策略和解码动态可能导致训练后服务质量的不稳定性。

🔬 方法详解

问题定义:本论文旨在解决大型语言模型在面对语义等价提示时的行为漂移问题。现有方法往往忽视了提示重述对模型响应的一致性影响,导致服务质量的不稳定性。

核心思路:我们提出的PBSS框架通过系统性地分析不同词元化方式下的模型响应,帮助识别和量化模型在语义等价提示下的行为变化。这一设计旨在揭示潜在的统计规律,进而改善模型的评估方法。

技术框架:PBSS框架包括数据收集、提示生成、模型响应评估和行为漂移分析四个主要模块。首先生成多种语义等价的提示,然后通过模型生成响应,最后对比分析不同提示下的响应差异。

关键创新:PBSS框架的核心创新在于其系统性地量化了模型在语义等价提示下的行为漂移,填补了现有评估方法的空白,提供了一种新的视角来理解模型的稳定性。

关键设计:在PBSS框架中,我们设计了多种提示生成策略,并采用统计分析方法来评估模型响应的变化。此外,特定的损失函数和评估指标被用于量化行为漂移的程度。通过这些设计,PBSS能够有效捕捉到模型在不同提示下的响应特征。

📊 实验亮点

实验结果表明,PBSS框架在十个受限任务中揭示了模型响应的显著变化,部分模型在不同提示下的响应一致性降低了20%以上。这一发现强调了词元化和解码策略对模型行为的深远影响,为后续研究提供了重要的实验依据。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理中的模型评估、对话系统的优化以及文本生成任务的稳定性分析。通过提高模型在语义等价提示下的响应一致性,PBSS框架能够为实际应用提供更可靠的服务质量,进而影响用户体验和系统性能。

📄 摘要(原文)

We investigate how large language models respond to prompts that differ only in their token-level realization but preserve the same semantic intent, a phenomenon we call prompt variance. We propose Prompt-Based Semantic Shift (PBSS), a diagnostic framework for measuring behavioral drift in LLMs under semantically equivalent prompt rewordings. Applied to ten constrained tasks, PBSS reveals consistent, model-specific response shifts, suggesting statistical regularities linked to tokenization and decoding. These results highlight an overlooked dimension of model evaluation stability under rephrasing and suggest that tokenization strategies and decoding dynamics may contribute to post-training quality of service instability.