Assessing the Effectiveness of LLMs in Delivering Cognitive Behavioral Therapy

📄 arXiv: 2603.03862v1 📥 PDF

作者: Navdeep Singh Bedi, Ana-Maria Bucur, Noriko Kando, Fabio Crestani

分类: cs.CL

发布日期: 2026-03-04

备注: Accepted to LREC 2026


💡 一句话要点

评估大型语言模型在认知行为疗法中的有效性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 认知行为疗法 心理健康 检索增强生成 自然语言处理

📋 核心要点

  1. 心理健康问题日益突出,对可扩展的治疗方案需求迫切,但现有方法难以满足。
  2. 论文探索LLM在认知行为疗法中的应用,对比生成式和检索增强生成两种策略。
  3. 实验表明LLM能生成类似CBT的对话,但在同理心和一致性方面存在局限性。

📝 摘要(中文)

随着全球心理健康问题日益严重,对可访问和可扩展的治疗解决方案的需求不断增长。 许多人目前正在寻求大型语言模型(LLM)的支持,即使这些模型尚未经过咨询服务验证。 在本文中,我们评估了LLM模拟认知行为疗法(CBT)专业治疗师的能力。 使用许可治疗师和客户之间匿名转录的角色扮演会话,我们比较了两种方法:(1)仅生成方法和(2)使用CBT指南的检索增强生成(RAG)方法。 我们使用标准自然语言生成(NLG)指标、自然语言推理(NLI)和技能评估的自动评分来评估专有模型和开源模型的语言质量、语义连贯性和治疗保真度。 我们的结果表明,虽然LLM可以生成类似CBT的对话,但它们在传达同理心和保持一致性方面的能力有限。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)在模拟认知行为疗法(CBT)治疗师方面的能力。现有方法,即人类治疗师,成本高昂且可及性有限。LLM虽然潜力巨大,但其在CBT领域的有效性尚未得到充分验证,尤其是在同理心和一致性方面存在挑战。

核心思路:论文的核心思路是对比两种利用LLM进行CBT模拟的方法:一种是直接生成式方法,另一种是检索增强生成(RAG)方法。RAG方法旨在通过检索CBT指南来增强LLM的知识,从而提高其治疗的准确性和有效性。通过对比这两种方法,评估LLM在CBT领域的潜力和局限性。

技术框架:整体框架包括以下几个主要步骤:1) 数据收集:收集匿名化的治疗师-客户角色扮演对话记录。2) 模型选择:选择多种LLM,包括专有模型和开源模型。3) 方法实现:分别实现生成式方法和RAG方法。RAG方法包含检索模块(从CBT指南中检索相关信息)和生成模块(基于检索到的信息生成回复)。4) 评估:使用多种指标评估LLM生成的对话,包括语言质量、语义连贯性和治疗保真度。

关键创新:论文的关键创新在于系统性地评估了LLM在CBT领域的应用潜力,并对比了生成式和检索增强生成两种方法。此外,论文还使用了多种评估指标,包括自然语言生成指标、自然语言推理和自动评分,从而对LLM的性能进行了全面评估。

关键设计:论文的关键设计包括:1) RAG方法的检索策略:如何从CBT指南中检索最相关的信息。2) 评估指标的选择:如何选择能够有效评估LLM在CBT领域性能的指标,例如,使用自然语言推理(NLI)来评估LLM生成回复的合理性。3) 模型选择:选择具有代表性的LLM,包括不同规模和架构的模型,以评估不同模型的性能。

🖼️ 关键图片

fig_0
img_1
img_2

📊 实验亮点

实验结果表明,LLM能够生成类似CBT的对话,但在传达同理心和保持一致性方面存在局限性。RAG方法在一定程度上提高了LLM的治疗保真度,但仍无法完全替代人类治疗师。该研究为LLM在心理健康领域的应用提供了重要的参考依据。

🎯 应用场景

该研究成果可应用于开发低成本、可扩展的心理健康支持系统。通过LLM模拟CBT治疗师,可以为无法获得传统治疗的人群提供初步的心理辅导和支持。未来,结合个性化数据和更先进的LLM技术,有望实现更精准、更有效的在线心理治疗。

📄 摘要(原文)

As mental health issues continue to rise globally, there is an increasing demand for accessible and scalable therapeutic solutions. Many individuals currently seek support from Large Language Models (LLMs), even though these models have not been validated for use in counseling services. In this paper, we evaluate LLMs' ability to emulate professional therapists practicing Cognitive Behavioral Therapy (CBT). Using anonymized, transcribed role-play sessions between licensed therapists and clients, we compare two approaches: (1) a generation-only method and (2) a Retrieval-Augmented Generation (RAG) approach using CBT guidelines. We evaluate both proprietary and open-source models for linguistic quality, semantic coherence, and therapeutic fidelity using standard natural language generation (NLG) metrics, natural language inference (NLI), and automated scoring for skills assessment. Our results indicate that while LLMs can generate CBT-like dialogues, they are limited in their ability to convey empathy and maintain consistency.