Feasibility-Guided Fair Adaptive Offline Reinforcement Learning for Medicaid Care Management
作者: Sanjay Basu, Sadiq Y. Patel, Parth Sheth, Bhairavi Muralidharan, Namrata Elamaran, Aakriti Kinra, Rajaie Batniji
分类: cs.LG, cs.AI, cs.LO, stat.AP
发布日期: 2025-09-11
备注: 12 pages, 5 figures, 3 tables
💡 一句话要点
提出可行性引导的公平自适应离线强化学习,用于改善医疗补助计划管理。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 离线强化学习 公平性 医疗补助 安全强化学习 自适应算法
📋 核心要点
- 现有方法在医疗补助计划管理中,难以兼顾决策的安全性和不同群体间的公平性。
- FG-FARL通过自适应地调整每个群体的安全阈值,在保证可行性的前提下,优化公平性目标。
- 实验表明,FG-FARL在价值上与基线相当,同时显著改善了公平性指标,具有实际应用价值。
📝 摘要(中文)
本文提出了一种名为可行性引导的公平自适应强化学习(FG-FARL)的离线强化学习程序。该程序通过校准每个群体的安全阈值来减少危害,同时平衡受保护亚群体之间的公平性目标(覆盖率或危害)。我们使用来自医疗补助人口健康管理计划的去标识化纵向轨迹,将FG-FARL与行为克隆(BC)和HACO(混合自适应共形离线强化学习;一种全局共形安全基线)进行评估。我们报告了带有bootstrap 95%置信区间的离策略价值估计,以及带有p值的亚群体差异分析。FG-FARL在提高公平性指标的同时,实现了与基线相当的价值,展示了更安全、更公平的决策支持的实际路径。
🔬 方法详解
问题定义:在医疗补助计划管理中,如何利用历史数据(离线数据)学习策略,以优化患者的健康管理,同时确保不同人群(例如,不同种族、性别等)获得公平的医疗资源分配和避免不必要的伤害?现有方法往往难以在安全性(避免有害行为)和公平性之间取得平衡,或者无法针对不同群体进行自适应调整。
核心思路:FG-FARL的核心思路是,针对不同的受保护亚群体,自适应地调整安全阈值,从而在保证策略可行性(即,避免采取可能导致危害的行动)的前提下,尽可能地优化公平性目标(例如,确保不同群体获得相似的覆盖率或遭受相似的危害)。这种自适应调整允许算法在不同群体之间进行权衡,从而实现更公平的决策。
技术框架:FG-FARL的整体框架包含以下几个主要步骤:1) 数据预处理:对医疗补助计划的历史数据进行清洗和特征工程,构建离线数据集。2) 策略学习:使用离线强化学习算法(例如,行为克隆)学习一个初始策略。3) 安全阈值校准:针对每个受保护亚群体,根据历史数据和策略表现,校准安全阈值。4) 策略优化:在安全阈值的约束下,优化策略,以提高价值并改善公平性指标。5) 评估:使用离策略评估方法,评估策略的价值和公平性。
关键创新:FG-FARL的关键创新在于其可行性引导的自适应安全阈值校准机制。与传统的全局安全阈值方法相比,FG-FARL能够针对不同的受保护亚群体,自适应地调整安全阈值,从而在保证安全性的前提下,更好地优化公平性目标。这种自适应性使得FG-FARL能够更好地适应不同人群的需求,从而实现更公平的决策。
关键设计:FG-FARL的关键设计包括:1) 如何定义和量化安全阈值?例如,可以使用置信区间或分位数来估计策略的安全性。2) 如何选择和优化公平性指标?例如,可以使用覆盖率差异或危害差异来衡量公平性。3) 如何设计自适应安全阈值校准算法?例如,可以使用梯度下降或贝叶斯优化来调整安全阈值。
📊 实验亮点
实验结果表明,FG-FARL在医疗补助计划管理中,能够实现与行为克隆(BC)和混合自适应共形离线强化学习(HACO)相当的价值。更重要的是,FG-FARL在提高公平性指标方面表现出色,显著降低了不同受保护亚群体之间的覆盖率或危害差异,证明了其在实际应用中的有效性和优越性。
🎯 应用场景
FG-FARL可应用于医疗健康领域,特别是医疗补助计划管理、慢性病管理和个性化医疗等场景。通过该方法,可以更安全、更公平地为患者提供个性化的治疗方案和健康管理建议,从而提高患者的健康水平和生活质量,并减少医疗资源的不公平分配。未来,该方法还可以扩展到其他涉及公平性和安全性的决策场景,例如金融信贷、教育资源分配等。
📄 摘要(原文)
We introduce Feasibility-Guided Fair Adaptive Reinforcement Learning (FG-FARL), an offline RL procedure that calibrates per-group safety thresholds to reduce harm while equalizing a chosen fairness target (coverage or harm) across protected subgroups. Using de-identified longitudinal trajectories from a Medicaid population health management program, we evaluate FG-FARL against behavior cloning (BC) and HACO (Hybrid Adaptive Conformal Offline RL; a global conformal safety baseline). We report off-policy value estimates with bootstrap 95% confidence intervals and subgroup disparity analyses with p-values. FG-FARL achieves comparable value to baselines while improving fairness metrics, demonstrating a practical path to safer and more equitable decision support.