Nonconvex Regularization for Feature Selection in Reinforcement Learning
作者: Kyohei Suzuki, Konstantinos Slavakis
分类: cs.LG
发布日期: 2025-09-19
💡 一句话要点
提出基于非凸正则化的强化学习特征选择算法,提升高噪声环境下的性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 特征选择 非凸正则化 稀疏学习 贝尔曼残差 LSTD FRBS
📋 核心要点
- 传统强化学习特征选择方法存在估计偏差,影响在高噪声环境下的性能。
- 采用非凸投影极小极大凹(PMC)惩罚正则化贝尔曼残差目标,减轻估计偏差。
- 实验结果表明,该方法显著优于现有特征选择方法,尤其是在高噪声场景下。
📝 摘要(中文)
本文提出了一种高效的批量强化学习特征选择算法,并提供了理论收敛保证。为了减轻传统正则化方案中固有的估计偏差,本文首先扩展了经典最小二乘时序差分(LSTD)框架中的策略评估,通过使用稀疏性诱导的非凸投影极小极大凹(PMC)惩罚正则化的贝尔曼残差目标来实现。由于PMC惩罚的弱凸性,该公式可以解释为一般非单调包含问题的一个特例。其次,本文为前向-反射-后向分裂(FRBS)算法建立了新的收敛条件,以解决这类问题。在基准数据集上的数值实验表明,所提出的方法显著优于最先进的特征选择方法,尤其是在具有许多噪声特征的场景中。
🔬 方法详解
问题定义:强化学习中的特征选择旨在从大量候选特征中选择最相关的特征子集,以提高学习效率和泛化能力。现有的正则化方法,如L1正则化,虽然可以诱导稀疏性,但往往会引入估计偏差,尤其是在噪声特征较多的情况下,影响策略评估的准确性。
核心思路:本文的核心思路是利用非凸正则化来克服传统凸正则化的偏差问题。具体而言,采用投影极小极大凹(PMC)惩罚函数,它具有比L1正则化更强的稀疏性诱导能力,同时可以减轻估计偏差。通过最小化正则化的贝尔曼残差,可以得到更准确的策略评估。
技术框架:该方法基于经典的最小二乘时序差分(LSTD)框架。首先,构建一个贝尔曼残差目标函数,该函数衡量了当前策略与最优策略之间的差距。然后,使用PMC惩罚对该目标函数进行正则化,以鼓励选择稀疏的特征子集。最后,使用前向-反射-后向分裂(FRBS)算法求解该优化问题,得到最优的特征权重。
关键创新:最重要的技术创新点在于使用非凸PMC惩罚进行特征选择。与传统的L1正则化相比,PMC惩罚具有更强的稀疏性诱导能力,并且可以减轻估计偏差。此外,本文还为FRBS算法建立了新的收敛条件,保证了算法的收敛性。
关键设计:PMC惩罚函数的具体形式需要仔细选择,以保证其弱凸性,从而可以使用FRBS算法进行求解。FRBS算法的关键参数包括步长和反射系数,需要根据具体问题进行调整,以保证算法的收敛速度和精度。损失函数是贝尔曼残差的平方,用于衡量当前策略与最优策略之间的差距。
📊 实验亮点
实验结果表明,所提出的方法在基准数据集上显著优于现有的特征选择方法。特别是在具有大量噪声特征的场景中,该方法能够更准确地选择相关特征,并获得更高的策略性能。与L1正则化等传统方法相比,该方法能够显著降低估计偏差,并提高学习效率。具体的性能提升幅度在不同数据集上有所不同,但总体而言,该方法能够获得显著的性能提升。
🎯 应用场景
该研究成果可应用于各种强化学习任务,尤其是在特征维度高、噪声特征多的场景下,例如机器人控制、推荐系统、金融交易等。通过选择最相关的特征,可以提高学习效率、降低计算成本,并提升策略的泛化能力。该方法还有助于理解强化学习模型的内部机制,为开发更高效、更鲁棒的强化学习算法提供理论基础。
📄 摘要(原文)
This work proposes an efficient batch algorithm for feature selection in reinforcement learning (RL) with theoretical convergence guarantees. To mitigate the estimation bias inherent in conventional regularization schemes, the first contribution extends policy evaluation within the classical least-squares temporal-difference (LSTD) framework by formulating a Bellman-residual objective regularized with the sparsity-inducing, nonconvex projected minimax concave (PMC) penalty. Owing to the weak convexity of the PMC penalty, this formulation can be interpreted as a special instance of a general nonmonotone-inclusion problem. The second contribution establishes novel convergence conditions for the forward-reflected-backward splitting (FRBS) algorithm to solve this class of problems. Numerical experiments on benchmark datasets demonstrate that the proposed approach substantially outperforms state-of-the-art feature-selection methods, particularly in scenarios with many noisy features.