Prism: Policy Reuse via Interpretable Strategy Mapping in Reinforcement Learning

作者: Thomas Pravetz

分类: cs.LG, cs.AI

发布日期: 2026-04-06

💡 一句话要点

PRISM：通过可解释策略映射实现强化学习中的策略复用

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 策略迁移 可解释性 因果推理 概念学习

📋 核心要点

现有强化学习方法在策略迁移时缺乏可解释性，难以理解和复用智能体的策略。
PRISM通过将智能体的决策分解为离散概念，并利用因果干预验证概念与行为之间的关系，实现策略的零样本迁移。
在Go 7x7游戏中，PRISM实现了显著的策略迁移效果，胜率远超随机策略和未对齐策略。

📝 摘要（中文）

我们提出了PRISM（Policy Reuse via Interpretable Strategy Mapping，通过可解释策略映射实现策略复用），该框架将强化学习智能体的决策建立在离散的、因果验证的概念之上，并使用这些概念作为在不同算法训练的智能体之间进行零样本迁移的接口。PRISM通过K-means将每个智能体的编码器特征聚类成K个概念。因果干预证实这些概念直接驱动（而不仅仅是关联）智能体的行为：覆盖概念分配会在69.4%的干预中改变所选动作（p = 8.6 x 10^-86，2500次干预）。概念重要性和使用频率是分离的：最常用的概念（C47，33.0%的频率）在消融时仅导致9.4%的胜率下降，而消融C16（15.4%的频率）则将胜率从100%降至51.8%。由于概念因果地编码了策略，因此通过最优二分匹配对齐它们可以零样本迁移战略知识。在Go~7x7上，通过概念迁移，两个成功的迁移对（10个种子）针对标准引擎实现了69.5%±3.2%和76.4%±3.4%的胜率，而随机智能体的胜率为3.5%，没有对齐的胜率为9.2%。当源策略很强时，迁移会成功；几何对齐质量无法预测迁移效果（R^2 ≈ 0）。该框架适用于战略状态自然离散的领域：在Atari Breakout上使用相同的流程会产生随机智能体性能的瓶颈策略，证实了Go的结果反映了该领域的结构属性。

🔬 方法详解

问题定义：现有强化学习方法在策略迁移时，通常难以理解智能体学习到的策略，并且缺乏有效的迁移手段。直接迁移策略参数往往效果不佳，因为不同智能体的状态空间表示可能存在差异。因此，如何提取和表示智能体的核心策略，并实现跨智能体的策略复用，是一个重要的挑战。

核心思路：PRISM的核心思路是将智能体的策略分解为一系列可解释的离散概念，这些概念能够因果地驱动智能体的行为。通过对齐不同智能体的概念空间，可以实现策略的零样本迁移。这种方法的关键在于找到能够代表智能体策略的、具有因果关系的中间表示。

技术框架：PRISM框架包含以下几个主要步骤：1) 特征提取：使用智能体的编码器提取状态特征。2) 概念聚类：使用K-means算法将特征聚类成K个概念。3) 因果验证：通过因果干预验证概念与智能体行为之间的因果关系。4) 概念对齐：使用最优二分匹配对齐不同智能体的概念空间。5) 策略迁移：将源智能体的策略映射到目标智能体的概念空间，实现策略迁移。

关键创新：PRISM的关键创新在于：1) 使用离散概念作为策略的中间表示，提高了策略的可解释性。2) 通过因果干预验证概念与行为之间的因果关系，确保了概念的有效性。3) 使用最优二分匹配对齐概念空间，实现了策略的零样本迁移。与现有方法相比，PRISM能够更好地理解和复用智能体的策略。

关键设计：在概念聚类阶段，K-means算法的K值需要根据具体任务进行调整。在因果验证阶段，作者使用了干预实验，通过改变概念的赋值来观察智能体行为的变化。在概念对齐阶段，作者使用了最优二分匹配算法，目标是最大化概念之间的相似度。相似度可以使用余弦相似度或其他度量方式计算。

🖼️ 关键图片

📊 实验亮点

PRISM在Go 7x7游戏中取得了显著的策略迁移效果，两个成功的迁移对针对标准引擎实现了69.5%±3.2%和76.4%±3.4%的胜率，而随机智能体的胜率为3.5%，没有对齐的胜率为9.2%。实验结果表明，PRISM能够有效地实现策略的零样本迁移，并且迁移效果与源策略的强度相关。

🎯 应用场景

PRISM框架具有广泛的应用前景，可以应用于机器人、游戏AI等领域。例如，可以将PRISM应用于多智能体协作任务中，实现不同智能体之间的知识共享和策略迁移。此外，PRISM还可以用于解释和调试强化学习智能体的行为，提高智能体的可信度。

📄 摘要（原文）

We present PRISM (Policy Reuse via Interpretable Strategy Mapping), a framework that grounds reinforcement learning agents' decisions in discrete, causally validated concepts and uses those concepts as a zero-shot transfer interface between agents trained with different algorithms. PRISM clusters each agent's encoder features into $K$ concepts via K-means. Causal intervention establishes that these concepts directly drive - not merely correlate with - agent behavior: overriding concept assignments changes the selected action in 69.4% of interventions ($p = 8.6 \times 10^{-86}$, 2500 interventions). Concept importance and usage frequency are dissociated: the most-used concept (C47, 33.0% frequency) causes only a 9.4% win-rate drop when ablated, while ablating C16 (15.4% frequency) collapses win rate from 100% to 51.8%. Because concepts causally encode strategy, aligning them via optimal bipartite matching transfers strategic knowledge zero-shot. On Go~7$\times$7 with three independently trained agents, concept transfer achieves 69.5%$\pm$3.2% and 76.4%$\pm$3.4% win rate against a standard engine across the two successful transfer pairs (10 seeds), compared to 3.5% for a random agent and 9.2% without alignment. Transfer succeeds when the source policy is strong; geometric alignment quality predicts nothing ($R^2 \approx 0$). The framework is scoped to domains where strategic state is naturally discrete: the identical pipeline on Atari Breakout yields bottleneck policies at random-agent performance, confirming that the Go results reflect a structural property of the domain.

Prism: Policy Reuse via Interpretable Strategy Mapping in Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理