Distilling the Thought, Watermarking the Answer: A Principle Semantic Guided Watermark for Large Reasoning Models

📄 arXiv: 2601.05144v1 📥 PDF

作者: Shuliang Liu, Xingyu Li, Hongyi Liu, Yibo Yan, Bingchen Duan, Qi Zheng, Dong Fang, Lingfeng Su, Xuming Hu

分类: cs.AI

发布日期: 2026-01-08


💡 一句话要点

提出ReasonMark,用于推理大模型的语义引导水印,提升水印性能的同时保持推理连贯性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 数字水印 推理模型 语义引导 可追溯性

📋 核心要点

  1. 现有token级水印方法会通过伪随机偏差破坏推理流程,而语义感知方法则引入显著延迟或需要辅助模型。
  2. ReasonMark将生成过程分为无干扰的思考阶段和带水印的回答阶段,利用关键性评分提取主要语义向量(PSV)。
  3. 实验表明,ReasonMark在降低困惑度、提高BLEU得分和数学准确率的同时,提升了水印检测AUC和鲁棒性。

📝 摘要(中文)

针对擅长复杂任务的推理大语言模型(RLLM)在数字水印方面面临的挑战,现有方法容易破坏逻辑连贯性或产生高计算成本。本文提出ReasonMark,一种专为推理密集型LLM设计的新型水印框架。该方法将生成过程解耦为无干扰的思考阶段和带水印的回答阶段。通过关键性评分识别推理轨迹中语义关键的token,并将其提炼为主要语义向量(PSV)。PSV引导语义自适应机制,根据token-PSV对齐情况调节水印强度,确保鲁棒性而不损害逻辑完整性。实验表明,ReasonMark优于现有方法,文本困惑度降低0.35,翻译BLEU得分提高0.164,数学准确率提高0.67个点。同时,水印检测AUC提高0.34%,对攻击的鲁棒性更强,且延迟增加可忽略不计。这项工作使推理LLM在实际应用中的可追溯和可信部署成为可能。

🔬 方法详解

问题定义:论文旨在解决推理大语言模型(RLLM)水印技术的难题。现有方法,如token级水印,会干扰模型的推理过程,影响生成质量;而语义感知的水印方法虽然能提升质量,但计算成本高昂,引入显著延迟,或者需要额外的辅助模型。因此,如何在保证水印鲁棒性和可检测性的同时,最小化对RLLM推理过程的影响,是本文要解决的核心问题。

核心思路:ReasonMark的核心思路是将生成过程解耦为两个阶段:一个不受干扰的“思考阶段”,以及一个添加水印的“回答阶段”。通过分析“思考阶段”的推理轨迹,提取出对语义影响最大的关键token,并将其编码为“主要语义向量”(PSV)。然后,在“回答阶段”,利用PSV引导水印的嵌入,使得水印的强度与token的语义重要性对齐,从而在保证水印鲁棒性的同时,尽可能减少对推理逻辑的干扰。

技术框架:ReasonMark框架主要包含以下几个模块:1) 推理轨迹提取:从RLLM的推理过程中提取token序列。2) 关键性评分:计算每个token的“关键性评分”,衡量其对整体语义的影响程度。3) 主要语义向量(PSV)生成:根据关键性评分,选择最重要的token,并将其编码为PSV。4) 语义自适应水印嵌入:在回答阶段,利用PSV引导水印的嵌入,根据token与PSV的对齐程度调整水印强度。5) 水印检测:从生成文本中提取水印,并判断其是否存在。

关键创新:ReasonMark的关键创新在于其语义引导的水印嵌入机制。与传统的token级水印方法不同,ReasonMark不是简单地对每个token添加水印,而是根据token的语义重要性自适应地调整水印强度。这种方法能够更好地平衡水印的鲁棒性和生成质量,避免对推理逻辑的过度干扰。此外,将生成过程解耦为“思考阶段”和“回答阶段”也是一个重要的创新,使得水印的嵌入更加可控。

关键设计:关键性评分的计算方式(具体公式未知,但应与token对整体语义的贡献度相关),PSV的编码方式(如何将关键token的信息压缩到PSV中,可能涉及embedding和pooling等操作),语义自适应水印嵌入的具体实现(如何根据token与PSV的对齐程度调整水印强度,可能涉及注意力机制或相似度计算),水印检测的阈值设定(如何平衡检测精度和误报率)等技术细节是影响ReasonMark性能的关键。

📊 实验亮点

ReasonMark在多个任务上取得了显著的性能提升。在文本生成任务中,困惑度降低了0.35;在翻译任务中,BLEU得分提高了0.164;在数学问题求解任务中,准确率提高了0.67个百分点。同时,水印检测的AUC提高了0.34%,并且对各种攻击具有更强的鲁棒性。重要的是,这些性能提升是在几乎不增加延迟的情况下实现的。

🎯 应用场景

ReasonMark可应用于各种需要可追溯性和可信度的推理大语言模型应用场景,例如金融分析、法律咨询、医疗诊断等。通过嵌入水印,可以追踪模型的来源和使用情况,防止恶意使用或篡改。此外,该技术还有助于提高模型输出的可信度,增强用户对模型的信任。

📄 摘要(原文)

Reasoning Large Language Models (RLLMs) excelling in complex tasks present unique challenges for digital watermarking, as existing methods often disrupt logical coherence or incur high computational costs. Token-based watermarking techniques can corrupt the reasoning flow by applying pseudo-random biases, while semantic-aware approaches improve quality but introduce significant latency or require auxiliary models. This paper introduces ReasonMark, a novel watermarking framework specifically designed for reasoning-intensive LLMs. Our approach decouples generation into an undisturbed Thinking Phase and a watermarked Answering Phase. We propose a Criticality Score to identify semantically pivotal tokens from the reasoning trace, which are distilled into a Principal Semantic Vector (PSV). The PSV then guides a semantically-adaptive mechanism that modulates watermark strength based on token-PSV alignment, ensuring robustness without compromising logical integrity. Extensive experiments show ReasonMark surpasses state-of-the-art methods by reducing text Perplexity by 0.35, increasing translation BLEU score by 0.164, and raising mathematical accuracy by 0.67 points. These advancements are achieved alongside a 0.34% higher watermark detection AUC and stronger robustness to attacks, all with a negligible increase in latency. This work enables the traceable and trustworthy deployment of reasoning LLMs in real-world applications.