PrivMedChat: End-to-End Differentially Private RLHF for Medical Dialogue Systems

📄 arXiv: 2603.03054v1 📥 PDF

作者: Sudip Bhujel

分类: cs.CL

发布日期: 2026-03-03

🔗 代码/项目: GITHUB


💡 一句话要点

PrivMedChat:面向医疗对话系统的端到端差分隐私强化学习与人类反馈对齐

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医疗对话系统 差分隐私 强化学习 人类反馈 隐私保护 DP-SGD RLHF

📋 核心要点

  1. 现有医疗对话系统依赖的监督数据可能包含敏感信息,直接使用这些数据进行微调和RLHF会带来隐私泄露风险。
  2. PrivMedChat框架通过在SFT和奖励模型学习阶段应用DP-SGD,并在PPO训练阶段限制隐私支出,实现了端到端的差分隐私RLHF。
  3. 实验表明,PrivMedChat在保证隐私的同时,在ROUGE-L、幻觉率、有害建议率和总体评分上均优于其他差分隐私模型。

📝 摘要(中文)

大型语言模型越来越多地应用于面向患者的医疗辅助和临床决策支持,但将其应用于临床对话通常需要源自医患对话的监督,这些对话可能包含敏感信息。传统的监督微调和基于人类反馈的强化学习(RLHF)会放大记忆风险,从而导致经验成员推理和提取罕见的训练集内容。我们提出了PrivMedChat,这是一个用于医疗对话的差分隐私RLHF(DP-RLHF)的端到端框架。我们的设计在直接访问对话派生监督的每个训练阶段都强制执行差分隐私:(i)用于医疗SFT的差分隐私随机梯度下降(DP-SGD)和(ii)用于从偏好对中学习奖励模型的DP-SGD。为了限制对齐期间的额外隐私支出,当处理对话派生的提示时,我们将DP-SGD应用于PPO actor和critic,而奖励模型在DP训练后保持固定。我们还引入了一种无标注的偏好构建策略,该策略将医生响应与过滤后的非专家生成配对,以生成可扩展的偏好数据,而无需临床医生标注。在医疗对话基准上的实验表明,在ε=7时,PrivMedChat在所有DP模型中实现了最高的ROUGE-L值0.156,将临床幻觉减少到1.4%,有害建议减少到0.4%,并在3模型LLM-jury评估中获得了最高的总体得分2.86,同时产生了接近偶然性的成员推理信号(AUC 0.510-0.555)。我们开源了我们的代码。

🔬 方法详解

问题定义:现有医疗对话系统依赖于包含敏感信息的医患对话数据进行训练,标准的监督微调(SFT)和基于人类反馈的强化学习(RLHF)方法容易导致模型记忆训练数据,从而泄露患者隐私。现有方法缺乏有效的隐私保护机制,无法在保证模型性能的同时,防止成员推理攻击和数据提取攻击。

核心思路:PrivMedChat的核心思路是在RLHF流程的各个阶段引入差分隐私(DP)机制,以限制模型对训练数据的记忆,从而保护患者隐私。具体来说,该方法在SFT和奖励模型训练阶段使用差分隐私随机梯度下降(DP-SGD),并在PPO训练阶段限制隐私预算,以平衡隐私保护和模型性能。

技术框架:PrivMedChat的整体框架是一个端到端的差分隐私RLHF流程,包括以下主要阶段:1) 使用DP-SGD对医疗数据进行监督微调(SFT);2) 使用DP-SGD从偏好对中学习奖励模型;3) 使用PPO算法对actor和critic进行训练,其中奖励模型保持固定,并限制PPO训练阶段的隐私支出。此外,该框架还引入了一种无标注的偏好构建策略,以降低标注成本。

关键创新:PrivMedChat的关键创新在于:1) 提出了一个端到端的差分隐私RLHF框架,适用于医疗对话系统;2) 在SFT和奖励模型训练阶段应用DP-SGD,并在PPO训练阶段限制隐私预算,实现了隐私保护和性能之间的平衡;3) 提出了一种无标注的偏好构建策略,降低了标注成本。与现有方法相比,PrivMedChat能够在保证隐私的同时,获得更好的模型性能。

关键设计:在DP-SGD的实现中,需要设置合适的隐私预算(ε)和差分隐私参数(δ)。论文中选择ε=7作为隐私预算。此外,为了降低标注成本,论文提出了一种无标注的偏好构建策略,该策略将医生响应与过滤后的非专家生成配对,以生成可扩展的偏好数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PrivMedChat在医疗对话基准测试中表现出色,在ε=7时,实现了最高的ROUGE-L值0.156,将临床幻觉减少到1.4%,有害建议减少到0.4%,并在3模型LLM-jury评估中获得了最高的总体得分2.86,同时产生了接近偶然性的成员推理信号(AUC 0.510-0.555)。

🎯 应用场景

PrivMedChat可应用于各种需要保护患者隐私的医疗对话场景,例如在线问诊、智能导诊、心理咨询等。该研究有助于推动医疗领域AI应用的普及,同时保障患者的隐私权益,具有重要的社会价值和应用前景。

📄 摘要(原文)

Large language models are increasingly used for patient-facing medical assistance and clinical decision support, but adapting them to clinical dialogue often requires supervision derived from doctor-patient conversations that may contain sensitive information. Conventional supervised fine-tuning and reinforcement learning from human feedback (RLHF) can amplify memorization risks, enabling empirical membership inference and extraction of rare training-set content. We present PrivMedChat, an end-to-end framework for differentially private RLHF (DP-RLHF) for medical dialogue. Our design enforces differential privacy at every training stage that directly accesses dialogue-derived supervision: (i) Differential Private Stochastic Gradient Descent (DP-SGD) for medical SFT and (ii) DP-SGD for reward model learning from preference pairs. To limit additional privacy expenditure during alignment, we apply DP-SGD to the PPO actor and critic when operating on dialogue-derived prompts, while the reward model remains fixed after DP training. We also introduce an annotation-free preference construction strategy that pairs physician responses with filtered non-expert generations to produce scalable preference data without clinician labeling. Experiments on medical dialogue benchmarks show that PrivMedChat at $\varepsilon=7$ achieves the highest ROUGE-L of 0.156 among all DP models, reduces clinical hallucinations to 1.4% and harmful advice to 0.4%, and obtains the highest overall score of 2.86 in a 3-model LLM-jury evaluation, while producing membership-inference signals that are near chance (AUC 0.510-0.555). We open-source our code at https://github.com/sudip-bhujel/privmedchat.