Are Today's LLMs Ready to Explain Well-Being Concepts?
作者: Bohan Jiang, Dawei Li, Zhen Tan, Chengshuai Zhao, Huan Liu
分类: cs.CL, cs.AI, cs.HC
发布日期: 2025-08-06
备注: 9 pages, 4 figures, 3 tables
💡 一句话要点
提出基于LLM的评估框架以提升幸福感概念解释质量
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 幸福感 解释生成 微调 评估框架 偏好学习 心理健康
📋 核心要点
- 核心问题:当前LLMs在生成幸福感概念解释时,面临准确性和受众适应性不足的挑战。
- 方法要点:提出了一种基于原则的LLM评估框架,并通过双重评估者来评估解释质量。
- 实验或效果:微调后的模型在解释质量上显著优于未微调的模型,且与人类评估结果高度一致。
📝 摘要(中文)
幸福感涵盖心理、身体和社会等多个维度,对个人成长和明智生活决策至关重要。随着人们越来越多地咨询大型语言模型(LLMs)以理解幸福感,关键挑战在于LLMs能否生成既准确又适合不同受众的解释。高质量的解释需要事实正确性和满足不同专业水平用户期望的能力。本文构建了一个包含43,880个幸福感概念解释的大规模数据集,并引入了基于原则的LLM评估框架,采用双重评估者来评估解释质量。研究表明,通过监督微调(SFT)和直接偏好优化(DPO)对开源LLM进行微调,可以显著提升生成解释的质量。
🔬 方法详解
问题定义:本文旨在解决当前大型语言模型在生成幸福感概念解释时,存在的准确性和受众适应性不足的问题。现有方法往往无法满足不同用户的需求,导致解释质量不均。
核心思路:通过构建一个大规模的幸福感概念解释数据集,并引入基于原则的评估框架,利用双重评估者来提升解释的质量和适应性。这样设计的目的是为了确保生成的解释不仅准确,而且能够满足不同专业水平用户的需求。
技术框架:整体架构包括数据集构建、模型训练和评估三个主要模块。首先,收集并生成幸福感概念的解释数据;其次,使用监督微调和直接偏好优化对LLM进行训练;最后,采用双重评估者对生成的解释进行质量评估。
关键创新:最重要的技术创新点在于引入了基于原则的LLM评估框架和双重评估者机制,这与现有方法的单一评估者模式形成了鲜明对比,能够更全面地评估解释质量。
关键设计:在模型微调过程中,采用了监督微调(SFT)和直接偏好优化(DPO)的方法,确保模型能够根据用户偏好生成更高质量的解释。
📊 实验亮点
实验结果显示,基于DPO和SFT微调的模型在解释质量上显著优于未微调的模型,且与人类评估结果高度一致,表明偏好学习在专业解释任务中的有效性。具体而言,微调模型在多个受众和类别下的表现均有显著提升,验证了方法的有效性。
🎯 应用场景
该研究的潜在应用领域包括心理健康咨询、教育和个人发展等。通过提升LLMs在幸福感概念解释上的能力,能够帮助用户更好地理解和应用相关知识,从而促进个人的心理和社会福祉。未来,这一研究可能对人机交互和智能助手的设计产生深远影响。
📄 摘要(原文)
Well-being encompasses mental, physical, and social dimensions essential to personal growth and informed life decisions. As individuals increasingly consult Large Language Models (LLMs) to understand well-being, a key challenge emerges: Can LLMs generate explanations that are not only accurate but also tailored to diverse audiences? High-quality explanations require both factual correctness and the ability to meet the expectations of users with varying expertise. In this work, we construct a large-scale dataset comprising 43,880 explanations of 2,194 well-being concepts, generated by ten diverse LLMs. We introduce a principle-guided LLM-as-a-judge evaluation framework, employing dual judges to assess explanation quality. Furthermore, we show that fine-tuning an open-source LLM using Supervised Fine-Tuning (SFT) and Direct Preference Optimization (DPO) can significantly enhance the quality of generated explanations. Our results reveal: (1) The proposed LLM judges align well with human evaluations; (2) explanation quality varies significantly across models, audiences, and categories; and (3) DPO- and SFT-finetuned models outperform their larger counterparts, demonstrating the effectiveness of preference-based learning for specialized explanation tasks.