Benchmarking Motivational Interviewing Competence of Large Language Models

📄 arXiv: 2603.03846v1 📥 PDF

作者: Aishwariya Jha, Prakrithi Shivaprakash, Lekhansh Shukla, Animesh Mukherjee, Prabhat Chand, Pratima Murthy

分类: cs.CL

发布日期: 2026-03-04

备注: 17 pages, 6 figures, 2 tables


💡 一句话要点

评估大型语言模型在动机访谈中的能力,验证其在心理咨询领域的应用潜力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 动机访谈 心理咨询 MITI框架 临床应用

📋 核心要点

  1. 现有动机访谈(MI)的质量评估依赖人工,效率低且成本高,限制了其在资源匮乏环境中的应用。
  2. 本研究利用大型语言模型(LLMs)模拟治疗师进行MI,并使用MITI框架评估其能力,旨在探索LLM在MI中的应用潜力。
  3. 实验结果表明,LLM在MITI指标上表现良好,甚至在某些方面优于人类专家,且难以与人类治疗师区分,验证了其可行性。

📝 摘要(中文)

本研究旨在评估大型语言模型(LLMs)在动机访谈(MI)中的能力,MI是一种用于促进物质使用障碍行为改变的方法。研究使用动机访谈治疗完整性(MITI)框架来衡量LLM的MI能力,尤其是在真实临床记录中的表现。研究对比了专有和开源模型与人类治疗师在真实临床记录中的表现,并评估了它们与人类治疗师的可区分性。研究使用了来自LMArena的3个专有模型和7个开源模型,并使用MITI 4.2框架在两个数据集(96个手工制作的模型记录,34个真实临床记录)上评估了性能。通过迭代生成LLM-治疗师的平行话语,同时保持客户反应静态,并使用包含MITI组件和详细程度的综合排名系统对性能进行排名。进行了一项可区分性实验,由两位独立的精神科医生来识别人类与LLM的反应。结果表明,所有10个测试的LLM在MITI指标上都具有良好(MITI全局得分>3.5)到优秀(MITI全局得分>4)的能力,并且在复杂反思百分比(39% vs 96%)和反思-问题比率(1.2 vs >2.8)方面,LLM优于人类专家。在可区分性实验中,精神科医生识别LLM反应的准确率仅为56%。结论是,LLM可以使用MITI框架在真实临床记录中实现良好的MI熟练度,即使是开源LLM也是在资源匮乏的环境中扩展MI咨询课程的可行选择。

🔬 方法详解

问题定义:本研究旨在评估大型语言模型在模拟动机访谈治疗师方面的能力。现有方法依赖于人工评估,成本高昂且耗时,限制了MI在资源有限环境中的应用。因此,需要一种自动化的方法来评估和扩展MI的应用。

核心思路:核心思路是利用大型语言模型生成治疗师的回复,并使用动机访谈治疗完整性(MITI)框架来评估这些回复的质量。通过将LLM生成的回复与人类治疗师的回复进行比较,可以确定LLM在MI方面的能力。

技术框架:整体框架包括以下几个步骤:1) 选择合适的LLM模型(包括专有和开源模型);2) 使用真实临床记录和手工制作的记录作为输入;3) 让LLM生成治疗师的回复;4) 使用MITI 4.2框架评估LLM生成的回复;5) 将LLM的性能与人类治疗师的性能进行比较;6) 进行可区分性实验,以评估LLM生成的回复与人类治疗师的回复的可区分性。

关键创新:关键创新在于使用LLM自动生成MI治疗师的回复,并使用MITI框架进行客观评估。此外,研究还探索了开源LLM在MI中的应用潜力,这对于资源有限的环境尤为重要。可区分性实验也验证了LLM生成回复的真实性。

关键设计:研究中使用了多个LLM模型,包括专有模型(如gemini-2.5-pro, grok-3)和开源模型(如gemma-3-27b-it)。MITI 4.2框架用于评估LLM生成的回复,该框架包含多个指标,如全局评分、反思与提问比率等。可区分性实验由两位独立的精神科医生进行,他们需要区分LLM生成的回复和人类治疗师的回复。

📊 实验亮点

实验结果表明,LLM在MITI指标上表现良好,甚至在复杂反思百分比(96% vs 39%)和反思-问题比率(>2.8 vs 1.2)方面优于人类专家。精神科医生区分LLM和人类治疗师回复的准确率仅为56%,表明LLM生成的回复具有较高的真实性。

🎯 应用场景

该研究成果可应用于心理健康咨询、药物滥用治疗等领域,尤其是在资源匮乏的地区,可以利用LLM提供低成本、可扩展的动机访谈服务。未来,可进一步开发基于LLM的智能心理咨询助手,辅助治疗师工作,提高咨询效率和覆盖范围。

📄 摘要(原文)

Motivational interviewing (MI) promotes behavioural change in substance use disorders. Its fidelity is measured using the Motivational Interviewing Treatment Integrity (MITI) framework. While large language models (LLMs) can potentially generate MI-consistent therapist responses, their competence using MITI is not well-researched, especially in real world clinical transcripts. We aim to benchmark MI competence of proprietary and open-source models compared to human therapists in real-world transcripts and assess distinguishability from human therapists. Methods: We shortlisted 3 proprietary and 7 open-source LLMs from LMArena, evaluated performance using MITI 4.2 framework on two datasets (96 handcrafted model transcripts, 34 real-world clinical transcripts). We generated parallel LLM-therapist utterances iteratively for each transcript while keeping client responses static, and ranked performance using a composite ranking system with MITI components and verbosity. We conducted a distinguishability experiment with two independent psychiatrists to identify human-vs-LLM responses. Results: All 10 tested LLMs had fair (MITI global scores >3.5) to good (MITI global scores >4) competence across MITI measures, and three best-performing models (gemma-3-27b-it, gemini-2.5-pro, grok-3) were tested on real-world transcripts. All showed good competence, with LLMs outperforming human-expert in Complex Reflection percentage (39% vs 96%) and Reflection-Question ratio (1.2 vs >2.8). In the distinguishability experiment, psychiatrists identified LLM responses with only 56% accuracy, with d-prime: 0.17 and 0.25 for gemini-2.5-pro and gemma-3-27b-it respectively. Conclusion: LLMs can achieve good MI proficiency in real-world clinical transcripts using MITI framework. These findings suggest that even open-source LLMs are viable candidates for expanding MI counselling sessions in low-resource settings.