Fairness Begins with State: Purifying Latent Preferences for Hierarchical Reinforcement Learning in Interactive Recommendation
作者: Yun Lu, Xiaoyu Shi, Hong Xie, Xiangyu Zhao, Mingsheng Shang
分类: cs.LG, cs.AI
发布日期: 2026-03-04
💡 一句话要点
提出DSRM-HRL框架以解决交互推荐中的公平性问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 交互推荐系统 强化学习 公平性 去噪模块 层次决策 潜在状态净化 用户偏好
📋 核心要点
- 现有的公平性感知方法假设用户状态真实反映其偏好,但实际上受到噪声和偏差影响,导致状态失真。
- 提出DSRM-HRL框架,将公平性推荐视为潜在状态净化问题,利用去噪模块恢复真实偏好,并通过层次决策解耦目标。
- 在高保真模拟器上进行的实验显示,DSRM-HRL有效打破了反馈循环,提升了推荐效用与曝光公平性的平衡。
📝 摘要(中文)
交互推荐系统(IRS)越来越多地采用强化学习(RL)来捕捉用户与系统之间的动态关系。然而,现有的公平性方法往往忽视了一个根本问题:观察到的用户状态并不能真实反映其偏好。隐式反馈受到流行度驱动的噪声和曝光偏差的影响,导致状态失真,误导RL代理。我们认为,准确性与公平性之间的持续冲突不仅仅是奖励塑形问题,而是状态估计失败。本文提出了DSRM-HRL框架,将公平性推荐重新定义为潜在状态净化问题,并通过解耦的层次决策进行处理。我们引入了基于扩散模型的去噪状态表示模块(DSRM),从高熵、噪声交互历史中恢复低熵的潜在偏好流形。在此净化状态的基础上,采用层次强化学习(HRL)代理解耦冲突目标:高层策略调节长期公平轨迹,而低层策略在这些动态约束下优化短期参与度。大量在高保真模拟器(KuaiRec, KuaiRand)上的实验表明,DSRM-HRL有效打破了“富者愈富”的反馈循环,在推荐效用和曝光公平性之间实现了优越的Pareto前沿。
🔬 方法详解
问题定义:本文旨在解决交互推荐系统中由于用户状态失真导致的公平性与准确性之间的冲突。现有方法未能有效处理隐式反馈中的噪声和偏差,造成状态估计失败。
核心思路:论文提出将公平性推荐重新定义为潜在状态净化问题,利用去噪状态表示模块(DSRM)从噪声交互历史中恢复真实偏好流形,以此为基础进行层次决策。
技术框架:DSRM-HRL框架包括两个主要模块:去噪状态表示模块(DSRM)和层次强化学习(HRL)代理。DSRM负责净化用户状态,而HRL代理则通过高层和低层策略解耦公平性与参与度的目标。
关键创新:最重要的创新在于引入了基于扩散模型的去噪模块,能够有效恢复低熵的潜在偏好流形,与传统方法相比,显著提高了状态估计的准确性。
关键设计:在DSRM模块中,采用了特定的损失函数以优化去噪效果,同时HRL代理的高层策略和低层策略通过动态约束进行协调,确保在不同时间尺度上实现公平性与参与度的平衡。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DSRM-HRL框架在高保真模拟器上显著打破了“富者愈富”的反馈循环,推荐效用与曝光公平性之间的Pareto前沿得到了显著改善,具体提升幅度未知。
🎯 应用场景
该研究的潜在应用领域包括电子商务、社交媒体和内容推荐等交互推荐系统。通过改善推荐的公平性与准确性,能够提升用户体验,促进用户的长期参与和满意度,具有重要的实际价值和社会影响。
📄 摘要(原文)
Interactive recommender systems (IRS) are increasingly optimized with Reinforcement Learning (RL) to capture the sequential nature of user-system dynamics. However, existing fairness-aware methods often suffer from a fundamental oversight: they assume the observed user state is a faithful representation of true preferences. In reality, implicit feedback is contaminated by popularity-driven noise and exposure bias, creating a distorted state that misleads the RL agent. We argue that the persistent conflict between accuracy and fairness is not merely a reward-shaping issue, but a state estimation failure. In this work, we propose \textbf{DSRM-HRL}, a framework that reformulates fairness-aware recommendation as a latent state purification problem followed by decoupled hierarchical decision-making. We introduce a Denoising State Representation Module (DSRM) based on diffusion models to recover the low-entropy latent preference manifold from high-entropy, noisy interaction histories. Built upon this purified state, a Hierarchical Reinforcement Learning (HRL) agent is employed to decouple conflicting objectives: a high-level policy regulates long-term fairness trajectories, while a low-level policy optimizes short-term engagement under these dynamic constraints. Extensive experiments on high-fidelity simulators (KuaiRec, KuaiRand) demonstrate that DSRM-HRL effectively breaks the "rich-get-richer" feedback loop, achieving a superior Pareto frontier between recommendation utility and exposure equity.