DRE: An Effective Dual-Refined Method for Integrating Small and Large Language Models in Open-Domain Dialogue Evaluation

📄 arXiv: 2506.04516v1 📥 PDF

作者: Kun Zhao, Bohao Yang, Chen Tang, Siyuan Dai, Haoteng Tang, Chenghua Lin, Liang Zhan

分类: cs.CL

发布日期: 2025-06-04

备注: arXiv admin note: text overlap with arXiv:2405.15924


💡 一句话要点

提出DRE方法以提升小型与大型语言模型在对话评估中的整合效果

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对话评估 语言模型 自适应加权 小型语言模型 大型语言模型 双重精炼 自然语言处理

📋 核心要点

  1. 现有的对话评估方法在处理多样化响应时存在不可靠性,尤其是在模糊场景中表现不佳。
  2. 本文提出的SLIDE方法通过自适应加权整合SLMs与LLMs,进一步发展为DRE方法,利用SLM的见解优化LLM的评估结果。
  3. 实验表明,DRE方法在多个基准测试中表现优于现有技术,显示出更强的人类判断一致性。

📝 摘要(中文)

大型语言模型(LLMs)在许多任务中表现优异,但在存在多种有效响应的模糊场景中常常产生不可靠的结果。相对而言,小型语言模型(SLMs)在这些场景中表现出更强的鲁棒性,但对误导性或对抗性输入较为敏感。本文提出了SLIDE(小型与大型模型集成对话评估方法),并在此基础上进一步提出了双重精炼评估(DRE)方法,通过自适应加权整合SLMs与LLMs。DRE方法通过SLM生成的见解指导LLM进行初步评估,并利用SLM派生的调整来优化LLM的评分,从而提高准确性。实验结果表明,DRE在多个基准测试中超越了现有方法,与人类判断的对齐度更强。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在模糊场景下评估不可靠的问题,现有方法在处理多样化响应时表现不佳,尤其是对话评估任务中。

核心思路:提出SLIDE方法,通过自适应加权整合小型与大型语言模型的优势,进而发展出DRE方法,利用SLM生成的见解来指导LLM的初步评估,并通过SLM的调整优化LLM的评分。

技术框架:DRE方法的整体架构包括两个主要模块:首先,SLM生成初步评估;其次,基于SLM的调整对LLM的评分进行精炼。

关键创新:DRE方法的核心创新在于双重精炼机制,通过SLM与LLM的协同作用,显著提升了对话评估的准确性和可靠性,这与传统单一模型方法有本质区别。

关键设计:在模型设计中,采用了自适应加权策略,结合了SLM与LLM的输出,损失函数设计上注重对人类判断的对齐度,以确保评估结果的有效性。

📊 实验亮点

实验结果显示,DRE方法在多个基准测试中超越了现有的对话评估技术,尤其在与人类判断的一致性方面,DRE方法的表现提升幅度达到了X%(具体数据待补充),展现了其在实际应用中的强大潜力。

🎯 应用场景

该研究的潜在应用领域包括开放域对话系统、智能客服、社交机器人等,能够为这些系统提供更可靠的对话评估工具,提升用户体验和交互质量。未来,DRE方法有望在更多自然语言处理任务中得到应用,推动对话系统的智能化发展。

📄 摘要(原文)

Large Language Models (LLMs) excel at many tasks but struggle with ambiguous scenarios where multiple valid responses exist, often yielding unreliable results. Conversely, Small Language Models (SLMs) demonstrate robustness in such scenarios but are susceptible to misleading or adversarial inputs. We observed that LLMs handle negative examples effectively, while SLMs excel with positive examples. To leverage their complementary strengths, we introduce SLIDE (Small and Large Integrated for Dialogue Evaluation), a method integrating SLMs and LLMs via adaptive weighting. Building on SLIDE, we further propose a Dual-Refinement Evaluation (DRE) method to enhance SLM-LLM integration: (1) SLM-generated insights guide the LLM to produce initial evaluations; (2) SLM-derived adjustments refine the LLM's scores for improved accuracy. Experiments demonstrate that DRE outperforms existing methods, showing stronger alignment with human judgment across diverse benchmarks. This work illustrates how combining small and large models can yield more reliable evaluation tools, particularly for open-ended tasks such as dialogue evaluation.