Feasibility-Guided Fair Adaptive Offline Reinforcement Learning for Medicaid Care Management

作者: Sanjay Basu, Sadiq Y. Patel, Parth Sheth, Bhairavi Muralidharan, Namrata Elamaran, Aakriti Kinra, Rajaie Batniji

分类: cs.LG, cs.AI, cs.LO, stat.AP

发布日期: 2025-09-11

备注: 12 pages, 5 figures, 3 tables

💡 一句话要点

提出可行性引导的公平自适应离线强化学习，用于改善医疗补助计划管理。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 公平性 医疗补助 安全强化学习 自适应算法

📋 核心要点

现有方法在医疗补助计划管理中，难以兼顾决策的安全性和不同群体间的公平性。
FG-FARL通过自适应地调整每个群体的安全阈值，在保证可行性的前提下，优化公平性目标。
实验表明，FG-FARL在价值上与基线相当，同时显著改善了公平性指标，具有实际应用价值。

📝 摘要（中文）

本文提出了一种名为可行性引导的公平自适应强化学习（FG-FARL）的离线强化学习程序。该程序通过校准每个群体的安全阈值来减少危害，同时平衡受保护亚群体之间的公平性目标（覆盖率或危害）。我们使用来自医疗补助人口健康管理计划的去标识化纵向轨迹，将FG-FARL与行为克隆（BC）和HACO（混合自适应共形离线强化学习；一种全局共形安全基线）进行评估。我们报告了带有bootstrap 95%置信区间的离策略价值估计，以及带有p值的亚群体差异分析。FG-FARL在提高公平性指标的同时，实现了与基线相当的价值，展示了更安全、更公平的决策支持的实际路径。

🔬 方法详解

问题定义：在医疗补助计划管理中，如何利用历史数据（离线数据）学习策略，以优化患者的健康管理，同时确保不同人群（例如，不同种族、性别等）获得公平的医疗资源分配和避免不必要的伤害？现有方法往往难以在安全性（避免有害行为）和公平性之间取得平衡，或者无法针对不同群体进行自适应调整。

核心思路：FG-FARL的核心思路是，针对不同的受保护亚群体，自适应地调整安全阈值，从而在保证策略可行性（即，避免采取可能导致危害的行动）的前提下，尽可能地优化公平性目标（例如，确保不同群体获得相似的覆盖率或遭受相似的危害）。这种自适应调整允许算法在不同群体之间进行权衡，从而实现更公平的决策。

技术框架：FG-FARL的整体框架包含以下几个主要步骤：1) 数据预处理：对医疗补助计划的历史数据进行清洗和特征工程，构建离线数据集。2) 策略学习：使用离线强化学习算法（例如，行为克隆）学习一个初始策略。3) 安全阈值校准：针对每个受保护亚群体，根据历史数据和策略表现，校准安全阈值。4) 策略优化：在安全阈值的约束下，优化策略，以提高价值并改善公平性指标。5) 评估：使用离策略评估方法，评估策略的价值和公平性。

关键创新：FG-FARL的关键创新在于其可行性引导的自适应安全阈值校准机制。与传统的全局安全阈值方法相比，FG-FARL能够针对不同的受保护亚群体，自适应地调整安全阈值，从而在保证安全性的前提下，更好地优化公平性目标。这种自适应性使得FG-FARL能够更好地适应不同人群的需求，从而实现更公平的决策。

关键设计：FG-FARL的关键设计包括：1) 如何定义和量化安全阈值？例如，可以使用置信区间或分位数来估计策略的安全性。2) 如何选择和优化公平性指标？例如，可以使用覆盖率差异或危害差异来衡量公平性。3) 如何设计自适应安全阈值校准算法？例如，可以使用梯度下降或贝叶斯优化来调整安全阈值。

📊 实验亮点

实验结果表明，FG-FARL在医疗补助计划管理中，能够实现与行为克隆（BC）和混合自适应共形离线强化学习（HACO）相当的价值。更重要的是，FG-FARL在提高公平性指标方面表现出色，显著降低了不同受保护亚群体之间的覆盖率或危害差异，证明了其在实际应用中的有效性和优越性。

🎯 应用场景

FG-FARL可应用于医疗健康领域，特别是医疗补助计划管理、慢性病管理和个性化医疗等场景。通过该方法，可以更安全、更公平地为患者提供个性化的治疗方案和健康管理建议，从而提高患者的健康水平和生活质量，并减少医疗资源的不公平分配。未来，该方法还可以扩展到其他涉及公平性和安全性的决策场景，例如金融信贷、教育资源分配等。

📄 摘要（原文）

We introduce Feasibility-Guided Fair Adaptive Reinforcement Learning (FG-FARL), an offline RL procedure that calibrates per-group safety thresholds to reduce harm while equalizing a chosen fairness target (coverage or harm) across protected subgroups. Using de-identified longitudinal trajectories from a Medicaid population health management program, we evaluate FG-FARL against behavior cloning (BC) and HACO (Hybrid Adaptive Conformal Offline RL; a global conformal safety baseline). We report off-policy value estimates with bootstrap 95% confidence intervals and subgroup disparity analyses with p-values. FG-FARL achieves comparable value to baselines while improving fairness metrics, demonstrating a practical path to safer and more equitable decision support.

Feasibility-Guided Fair Adaptive Offline Reinforcement Learning for Medicaid Care Management

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册