TrustMH-Bench: A Comprehensive Benchmark for Evaluating the Trustworthiness of Large Language Models in Mental Health
作者: Zixin Xiong, Ziteng Wang, Haotian Fan, Xinjie Zhang, Wenxuan Wang
分类: cs.CL, cs.AI
发布日期: 2026-03-03
💡 一句话要点
TrustMH-Bench:用于评估大语言模型在心理健康领域可信度的综合基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 心理健康 大型语言模型 可信度评估 基准测试 人工智能伦理
📋 核心要点
- 现有通用LLM的评估方法无法满足心理健康领域对模型可信度的特殊要求,例如危机识别、伦理道德等。
- TrustMH-Bench框架通过将领域规范映射到定量指标,系统评估LLM在心理健康领域的可靠性、安全性、公平性等多个维度。
- 实验结果表明,即使是强大的通用LLM在心理健康场景下也存在可信度缺陷,需要进一步提升。
📝 摘要(中文)
大型语言模型(LLMs)在提供可访问的心理健康支持方面显示出巨大的潜力,但由于该领域的高风险和安全敏感性,其实际部署引发了严重的可信度问题。现有的通用LLM评估范式未能捕捉到心理健康领域的特定需求,因此迫切需要优先考虑并提高其可信度。为了解决这个问题,我们提出了TrustMH-Bench,这是一个旨在系统地量化心理健康LLM可信度的整体框架。通过建立领域特定规范与定量评估指标之间的深度映射,TrustMH-Bench从八个核心支柱评估模型:可靠性、危机识别与升级、安全性、公平性、隐私性、鲁棒性、反谄媚和伦理道德。我们对六个通用LLM和六个专门的心理健康模型进行了广泛的实验。实验结果表明,被评估的模型在心理健康场景中的各个可信度维度上表现不佳,揭示了显著的缺陷。值得注意的是,即使是通常功能强大的模型(例如,GPT-5.1)也无法在所有维度上保持始终如一的高性能。因此,系统地提高LLM的可信度已成为一项关键任务。我们的数据和代码已发布。
🔬 方法详解
问题定义:论文旨在解决现有大语言模型在心理健康领域应用时,缺乏针对性的可信度评估标准的问题。现有通用评估方法无法充分捕捉心理健康领域的特殊需求,例如危机识别、伦理道德、隐私保护等,导致模型在该领域的应用存在潜在风险。
核心思路:论文的核心思路是构建一个全面的基准测试框架,该框架能够系统地量化LLM在心理健康领域的各个可信度维度上的表现。通过建立领域特定规范与定量评估指标之间的映射,实现对模型可信度的细粒度评估。
技术框架:TrustMH-Bench框架包含以下主要模块:1) 领域规范定义:明确心理健康领域的可信度标准,例如可靠性、安全性、公平性等。2) 指标映射:将领域规范映射到可量化的评估指标。3) 数据集构建:构建包含各种心理健康场景的数据集,用于评估模型在不同场景下的表现。4) 模型评估:使用构建的数据集和评估指标,对LLM进行可信度评估。5) 结果分析:分析评估结果,识别模型在各个维度上的优势和不足。
关键创新:该论文的关键创新在于提出了一个专门针对心理健康领域LLM可信度评估的综合基准测试框架。该框架不仅考虑了通用LLM的可信度问题,还特别关注了心理健康领域的特殊需求,例如危机识别、伦理道德、隐私保护等。
关键设计:TrustMH-Bench框架的关键设计包括:1) 八个核心支柱:可靠性、危机识别与升级、安全性、公平性、隐私性、鲁棒性、反谄媚和伦理道德。2) 领域特定数据集:包含各种心理健康场景的数据集,例如抑郁症、焦虑症、自杀风险等。3) 定量评估指标:使用可量化的指标来评估模型在各个维度上的表现,例如准确率、召回率、F1值等。
📊 实验亮点
实验结果表明,即使是GPT-5.1等强大的通用LLM在心理健康场景下也存在可信度缺陷,例如在危机识别、伦理道德等方面表现不佳。专门的心理健康模型在某些维度上表现更好,但在其他维度上可能存在不足。这表明需要针对心理健康领域进行专门的模型优化和可信度评估。
🎯 应用场景
该研究成果可应用于心理健康领域的LLM开发和评估,帮助开发者构建更安全、可靠、符合伦理道德的心理健康支持系统。同时,该基准测试框架也可用于评估现有心理健康LLM的性能,为用户选择合适的模型提供参考。
📄 摘要(原文)
While Large Language Models (LLMs) demonstrate significant potential in providing accessible mental health support, their practical deployment raises critical trustworthiness concerns due to the domains high-stakes and safety-sensitive nature. Existing evaluation paradigms for general-purpose LLMs fail to capture mental health-specific requirements, highlighting an urgent need to prioritize and enhance their trustworthiness. To address this, we propose TrustMH-Bench, a holistic framework designed to systematically quantify the trustworthiness of mental health LLMs. By establishing a deep mapping from domain-specific norms to quantitative evaluation metrics, TrustMH-Bench evaluates models across eight core pillars: Reliability, Crisis Identification and Escalation, Safety, Fairness, Privacy, Robustness, Anti-sycophancy, and Ethics. We conduct extensive experiments across six general-purpose LLMs and six specialized mental health models. Experimental results indicate that the evaluated models underperform across various trustworthiness dimensions in mental health scenarios, revealing significant deficiencies. Notably, even generally powerful models (e.g., GPT-5.1) fail to maintain consistently high performance across all dimensions. Consequently, systematically improving the trustworthiness of LLMs has become a critical task. Our data and code are released.