AdvJudge-Zero: Binary Decision Flips in LLM-as-a-Judge via Adversarial Control Tokens

📄 arXiv: 2512.17375v1 📥 PDF

作者: Tung-Ling Li, Yuhao Wu, Hongliang Liu

分类: cs.LG, cs.CL, cs.CR

发布日期: 2025-12-19


💡 一句话要点

AdvJudge-Zero:通过对抗控制令牌翻转LLM评判器的二元决策

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: LLM评判器 对抗攻击 控制令牌 奖励黑客 对抗训练

📋 核心要点

  1. 现有奖励模型和LLM评判系统易受攻击,可能被精心设计的控制令牌序列欺骗,导致错误的二元决策。
  2. AdvJudge-Zero方法通过探索模型的下一个令牌分布,自动发现能够翻转评判结果的控制令牌序列。
  3. 实验表明,对抗训练可以有效降低控制令牌导致的假阳性率,同时保持评判质量。

📝 摘要(中文)

奖励模型和LLM评判系统是现代后训练流程(如RLHF、DPO和RLAIF)的核心,它们提供标量反馈和二元决策,指导模型选择和基于强化学习的微调。本文揭示了这些评判系统存在一种反复出现的漏洞:短序列的低困惑度控制令牌可以通过操纵最后一层logit间隙,将许多二元评估从正确的“否”判断翻转为不正确的“是”判断。这些控制令牌是策略模型在后训练期间可能生成的模式,因此代表了实际的奖励黑客风险,而不是最坏情况下的对抗性字符串。本文提出的AdvJudge-Zero方法利用模型的下一个令牌分布和束搜索探索,从头开始发现各种控制令牌序列。分析表明,诱导的隐藏状态扰动集中在一个低秩“软模式”中,该模式与评判器的拒绝方向反向对齐。实验表明,当大型开放权重和专用评判模型对数学和推理基准上的不正确答案进行评分时,这些令牌会导致非常高的假阳性率。最后,本文表明,在少量控制令牌增强示例上进行基于LoRA的对抗训练可以显著降低这些假阳性率,同时保持评估质量。

🔬 方法详解

问题定义:现有的基于LLM的评判系统在RLHF等流程中扮演重要角色,但容易受到对抗攻击。具体来说,短序列的控制令牌可以改变LLM评判器的决策,将错误的答案判断为正确。这种攻击的威胁在于,这些控制令牌并非完全随机的对抗样本,而是模型在训练过程中可能生成的,因此更具实际意义。

核心思路:本文的核心思路是利用模型的自身特性(下一个token的概率分布)来寻找能够影响评判结果的控制令牌序列。通过优化这些控制令牌,使得它们能够最大程度地改变LLM评判器的输出logit,从而翻转其二元决策。这种方法不需要外部的对抗样本生成器,而是直接利用模型本身的信息。

技术框架:AdvJudge-Zero方法主要包含以下几个阶段: 1. 控制令牌搜索:使用模型的下一个token分布和束搜索算法,从头开始生成控制令牌序列。 2. 隐藏状态分析:分析控制令牌引起的隐藏状态扰动,发现其集中在一个低秩“软模式”中。 3. 对抗训练:使用生成的控制令牌增强训练数据,通过LoRA进行对抗训练,提高模型的鲁棒性。

关键创新:最重要的创新在于提出了一种完全基于模型自身信息的对抗样本生成方法。与传统的对抗攻击方法不同,AdvJudge-Zero不需要外部的对抗样本生成器,而是直接利用模型的下一个token分布来寻找控制令牌。这种方法生成的控制令牌更具实际意义,因为它们是模型在训练过程中可能生成的。

关键设计: 1. 控制令牌搜索:使用束搜索算法,以最大化logit差距为目标,寻找最优的控制令牌序列。 2. 隐藏状态分析:使用奇异值分解(SVD)分析隐藏状态扰动,发现其集中在一个低秩“软模式”中。 3. 对抗训练:使用LoRA进行对抗训练,以减少计算成本,并防止模型过拟合。

📊 实验亮点

实验结果表明,AdvJudge-Zero方法能够有效地发现控制令牌序列,这些序列可以显著提高LLM评判器的假阳性率。在数学和推理基准测试中,使用这些控制令牌可以使大型开放权重和专用评判模型将错误答案判断为正确的概率大幅提升。通过在少量控制令牌增强示例上进行基于LoRA的对抗训练,可以显著降低这些假阳性率,同时保持评估质量。

🎯 应用场景

该研究成果可应用于提升LLM评判系统的安全性与鲁棒性,降低其在RLHF等后训练流程中被恶意利用的风险。通过对抗训练,可以提高评判系统对潜在对抗样本的抵抗能力,从而保证模型训练的稳定性和可靠性。此外,该方法也可用于评估和改进其他基于LLM的系统。

📄 摘要(原文)

Reward models and LLM-as-a-Judge systems are central to modern post-training pipelines such as RLHF, DPO, and RLAIF, where they provide scalar feedback and binary decisions that guide model selection and RL-based fine-tuning. We show that these judge systems exhibit a recurring vulnerability: short sequences of low-perplexity control tokens can flip many binary evaluations from correct No'' judgments to incorrectYes'' judgments by steering the last-layer logit gap. These control tokens are patterns that a policy model could plausibly generate during post-training, and thus represent realistic reward-hacking risks rather than worst-case adversarial strings. Our method, AdvJudge-Zero, uses the model's next-token distribution and beam-search exploration to discover diverse control-token sequences from scratch, and our analysis shows that the induced hidden-state perturbations concentrate in a low-rank ``soft mode'' that is anti-aligned with the judge's refusal direction. Empirically, these tokens cause very high false positive rates when large open-weight and specialized judge models score incorrect answers on math and reasoning benchmarks. Finally, we show that LoRA-based adversarial training on small sets of control-token-augmented examples can markedly reduce these false positives while preserving evaluation quality.