Beyond Semantic Manipulation: Token-Space Attacks on Reward Models

📄 arXiv: 2604.02686 📥 PDF

作者: Yuheng Zhang, Mingyue Huo, Minghao Zhu, Mengxue Zhang, Nan Jiang

分类: cs.LG, cs.AI

发布日期: 2026-04-06


💡 一句话要点

提出TOMPA框架,绕过语义空间直接攻击奖励模型,揭示RLHF的安全漏洞。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 奖励模型攻击 Token空间攻击 对抗性优化 RLHF安全 黑盒攻击

📋 核心要点

  1. 现有奖励模型易受攻击,但主要集中在语义层面,忽略了token层面的潜在漏洞。
  2. TOMPA框架直接在token空间进行对抗优化,绕过语义解码环节,寻找非语义的奖励漏洞。
  3. 实验表明,TOMPA能显著提高奖励模型评分,但生成无意义文本,揭示了现有RLHF的安全隐患。

📝 摘要(中文)

奖励模型(RM)在基于人类反馈的强化学习(RLHF)中被广泛用作优化目标,但它们仍然容易受到奖励攻击。现有的攻击主要在语义空间内进行,构建人类可读的对抗性输出,利用RM的偏差。本文提出了一种根本不同的范例:Token Mapping Perturbation Attack (TOMPA),该框架直接在token空间中执行对抗性优化。通过绕过策略和奖励模型之间的标准解码-再token化接口,TOMPA使攻击策略能够优化原始token序列,而不是连贯的自然语言。仅使用黑盒标量反馈,TOMPA自动发现非语言token模式,这些模式可以在多个最先进的RM中引发极高的奖励。具体来说,当以Skywork-Reward-V2-Llama-3.1-8B为目标时,TOMPA几乎使GPT-5参考答案的奖励翻倍,并在98.0%的提示中优于它们。尽管得分很高,但生成的输出退化为无意义的文本,表明RM可以在语义范围之外被系统地利用,并暴露了当前RLHF管道中的一个关键漏洞。

🔬 方法详解

问题定义:现有针对奖励模型的攻击主要集中在语义空间,即生成人类可读但具有欺骗性的文本。这种方法依赖于奖励模型对特定语义模式的偏好。然而,奖励模型也可能存在于token层面的漏洞,即某些非语义的token序列也能获得高奖励。现有方法无法有效探索和利用这些token层面的漏洞。

核心思路:TOMPA的核心思路是直接在token空间进行对抗性优化,绕过策略模型和奖励模型之间的解码-再token化过程。通过直接操纵token序列,TOMPA可以发现并利用奖励模型中存在的、与语义无关的token模式,从而实现更高的奖励。

技术框架:TOMPA框架主要包含以下几个模块:1) Token扰动模块:负责对输入的token序列进行扰动,生成新的token序列。2) 奖励评估模块:将生成的token序列输入到黑盒奖励模型中,获取奖励值。3) 优化模块:根据奖励值,使用优化算法(如进化策略)调整token扰动策略,以最大化奖励。整个流程迭代进行,直到找到能够获得高奖励的token序列。

关键创新:TOMPA最重要的创新在于它打破了传统的语义攻击范式,将攻击目标转移到token空间。这种方法不再依赖于生成人类可读的文本,而是直接寻找能够欺骗奖励模型的token模式。这种攻击方式更加隐蔽和有效,能够发现现有方法无法发现的漏洞。

关键设计:TOMPA的关键设计包括:1) 使用进化策略作为优化算法,因为它不需要梯度信息,适用于黑盒攻击场景。2) 设计合适的token扰动策略,例如随机替换、插入或删除token。3) 使用合适的奖励函数,例如直接使用奖励模型的输出作为奖励值。4) 为了防止生成过长的token序列,可以设置最大长度限制。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TOMPA在Skywork-Reward-V2-Llama-3.1-8B奖励模型上取得了显著成果,几乎使GPT-5参考答案的奖励翻倍,并在98.0%的提示中优于GPT-5。然而,生成的文本完全是无意义的,这表明奖励模型存在严重的token层面的漏洞,可以被非语义的token序列所利用。

🎯 应用场景

该研究成果可应用于提升RLHF系统的安全性,通过对抗性测试发现并修复奖励模型中的漏洞。此外,该方法也为研究奖励模型的内部机制提供了新的视角,有助于设计更鲁棒、更可信的奖励模型。未来,可以探索将该方法应用于其他类型的AI系统,例如图像识别和语音识别系统。

📄 摘要(原文)

Reward models (RMs) are widely used as optimization targets in reinforcement learning from human feedback (RLHF), yet they remain vulnerable to reward hacking. Existing attacks mainly operate within the semantic space, constructing human-readable adversarial outputs that exploit RM biases. In this work, we introduce a fundamentally different paradigm: Token Mapping Perturbation Attack (TOMPA), a framework that performs adversarial optimization directly in token space. By bypassing the standard decode-re-tokenize interface between the policy and the reward model, TOMPA enables the attack policy to optimize over raw token sequences rather than coherent natural language. Using only black-box scalar feedback, TOMPA automatically discovers non-linguistic token patterns that elicit extremely high rewards across multiple state-of-the-art RMs. Specifically, when targeting Skywork-Reward-V2-Llama-3.1-8B, TOMPA nearly doubles the reward of GPT-5 reference answers and outperforms them on 98.0% of prompts. Despite these high scores, the generated outputs degenerate into nonsensical text, revealing that RMs can be systematically exploited beyond the semantic regime and exposing a critical vulnerability in current RLHF pipelines.