Quantifying Conversational Reliability of Large Language Models under Multi-Turn Interaction
作者: Jiyoon Myung
分类: cs.CL
发布日期: 2026-03-02
备注: Accepted at the Workshop on Assessing and Improving Reliability of Foundation Models in the Real World (AAAI 2026)
💡 一句话要点
量化大型语言模型在多轮交互中的对话可靠性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 多轮对话 可靠性评估 对话系统 错误分析
📋 核心要点
- 现有大型语言模型在多轮交互中可靠性不足,尤其是在复杂任务和主题切换场景下。
- 论文通过设计多轮对话任务,量化评估LLM在保持全局约束、工具选择和实体跟踪方面的可靠性。
- 实验结果表明,随着对话轮数的增加,LLM的可靠性显著下降,尤其是在较小模型中,并分析了常见错误模式。
📝 摘要(中文)
大型语言模型(LLMs)越来越多地部署在实际应用中,用户进行依赖先前上下文的扩展、混合主题对话。然而,它们在真实多轮交互下的可靠性仍然知之甚少。我们通过三个代表性任务对对话可靠性进行系统评估,这些任务反映了实际交互挑战:(1)在主题转换中保持全局约束,(2)在交错意图之间选择正确的工具或代理,(3)在修改和干扰下跟踪结构化实体。每个任务都配对单轮和多轮设置,从而量化扩展对话下的可靠性下降。在商业和开源模型中,我们观察到可靠性显著下降,特别是对于较小的模型。错误分析揭示了诸如指令漂移、意图混淆和上下文覆盖等反复出现的失败模式,这些模式会损害操作系统的可靠行为。我们的研究结果强调需要对LLM进行对话可靠性压力测试,并开发更强大的评估方法以实现可信的部署。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在多轮对话交互中可靠性难以量化评估的问题。现有方法通常侧重于单轮或简单多轮对话,无法充分反映真实场景下LLM面临的挑战,例如主题切换、意图混淆和上下文遗忘等。这些问题导致LLM在实际应用中表现不稳定,难以保证服务质量。
核心思路:论文的核心思路是通过设计一系列具有代表性的多轮对话任务,系统地评估LLM在不同交互场景下的可靠性。这些任务模拟了真实用户与LLM交互时可能遇到的挑战,例如保持全局约束、选择合适的工具或代理,以及跟踪结构化实体。通过比较LLM在单轮和多轮设置下的表现,可以量化其可靠性随对话轮数增加而下降的程度。
技术框架:论文构建了一个包含三个主要任务的评估框架:(1)全局约束保持:要求LLM在不同主题的对话中始终遵守预设的规则或限制。(2)工具/代理选择:要求LLM根据用户意图,在多个工具或代理中选择最合适的。(3)结构化实体跟踪:要求LLM在对话过程中跟踪和更新结构化实体的信息,例如人物、地点和事件。每个任务都包含单轮和多轮两种设置,用于比较LLM在不同交互深度下的表现。
关键创新:论文的关键创新在于提出了一个系统化的多轮对话可靠性评估框架,该框架能够量化LLM在复杂交互场景下的可靠性下降程度。与以往侧重于单轮或简单多轮对话的评估方法相比,该框架更贴近真实应用场景,能够更全面地反映LLM的实际性能。此外,论文还对LLM的常见错误模式进行了深入分析,为改进LLM的可靠性提供了有价值的参考。
关键设计:在全局约束保持任务中,论文设计了需要LLM在多个主题的对话中始终遵守预设规则的场景。在工具/代理选择任务中,论文设计了需要LLM根据用户意图,在多个工具或代理中选择最合适的场景,例如根据用户需求选择合适的API。在结构化实体跟踪任务中,论文设计了需要LLM在对话过程中跟踪和更新结构化实体信息的场景,例如在对话中不断更新人物关系或事件进展。
🖼️ 关键图片
📊 实验亮点
实验结果表明,随着对话轮数的增加,LLM的可靠性显著下降,尤其是在较小模型中。例如,在全局约束保持任务中,多轮对话的准确率比单轮对话下降了10%-20%。错误分析揭示了诸如指令漂移、意图混淆和上下文覆盖等常见错误模式,这些模式会严重影响LLM在实际应用中的可靠性。
🎯 应用场景
该研究成果可应用于评估和改进各种基于大型语言模型的对话系统,例如智能客服、虚拟助手和聊天机器人。通过量化LLM在多轮交互中的可靠性,可以帮助开发者识别和解决潜在问题,从而提高系统的稳定性和用户体验。此外,该研究还可以为LLM的训练和微调提供指导,使其在复杂对话场景中表现更佳。
📄 摘要(原文)
Large Language Models (LLMs) are increasingly deployed in real-world applications where users engage in extended, mixed-topic conversations that depend on prior context. Yet, their reliability under realistic multi-turn interactions remains poorly understood. We conduct a systematic evaluation of conversational reliability through three representative tasks that reflect practical interaction challenges: (1) maintaining global constraints across topic shifts, (2) selecting the correct tool or agent amid interleaved intents, and (3) tracking structured entities under revisions and distractions. Each task pairs single-turn and multi-turn settings, allowing us to quantify reliability degradation under extended dialogue. Across both commercial and open-source models, we observe substantial declines in reliability, particularly for smaller models. Error analyses reveal recurring failure modes such as instruction drift, intent confusion, and contextual overwriting, which compromise dependable behavior in operational systems. Our findings highlight the need for stress-testing LLMs for conversational reliability and developing more robust evaluation methods for trustworthy deployment.