Distilling the Thought, Watermarking the Answer: A Principle Semantic Guided Watermark for Large Reasoning Models

作者: Shuliang Liu, Xingyu Li, Hongyi Liu, Yibo Yan, Bingchen Duan, Qi Zheng, Dong Fang, Lingfeng Su, Xuming Hu

分类: cs.AI

发布日期: 2026-01-08

💡 一句话要点

提出ReasonMark，用于推理大模型的语义引导水印，提升水印性能的同时保持推理连贯性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 数字水印 推理模型 语义引导 可追溯性

📋 核心要点

现有token级水印方法会通过伪随机偏差破坏推理流程，而语义感知方法则引入显著延迟或需要辅助模型。
ReasonMark将生成过程分为无干扰的思考阶段和带水印的回答阶段，利用关键性评分提取主要语义向量（PSV）。
实验表明，ReasonMark在降低困惑度、提高BLEU得分和数学准确率的同时，提升了水印检测AUC和鲁棒性。

📝 摘要（中文）

针对擅长复杂任务的推理大语言模型（RLLM）在数字水印方面面临的挑战，现有方法容易破坏逻辑连贯性或产生高计算成本。本文提出ReasonMark，一种专为推理密集型LLM设计的新型水印框架。该方法将生成过程解耦为无干扰的思考阶段和带水印的回答阶段。通过关键性评分识别推理轨迹中语义关键的token，并将其提炼为主要语义向量（PSV）。PSV引导语义自适应机制，根据token-PSV对齐情况调节水印强度，确保鲁棒性而不损害逻辑完整性。实验表明，ReasonMark优于现有方法，文本困惑度降低0.35，翻译BLEU得分提高0.164，数学准确率提高0.67个点。同时，水印检测AUC提高0.34%，对攻击的鲁棒性更强，且延迟增加可忽略不计。这项工作使推理LLM在实际应用中的可追溯和可信部署成为可能。

🔬 方法详解

问题定义：论文旨在解决推理大语言模型（RLLM）水印技术的难题。现有方法，如token级水印，会干扰模型的推理过程，影响生成质量；而语义感知的水印方法虽然能提升质量，但计算成本高昂，引入显著延迟，或者需要额外的辅助模型。因此，如何在保证水印鲁棒性和可检测性的同时，最小化对RLLM推理过程的影响，是本文要解决的核心问题。

核心思路：ReasonMark的核心思路是将生成过程解耦为两个阶段：一个不受干扰的“思考阶段”，以及一个添加水印的“回答阶段”。通过分析“思考阶段”的推理轨迹，提取出对语义影响最大的关键token，并将其编码为“主要语义向量”（PSV）。然后，在“回答阶段”，利用PSV引导水印的嵌入，使得水印的强度与token的语义重要性对齐，从而在保证水印鲁棒性的同时，尽可能减少对推理逻辑的干扰。

技术框架：ReasonMark框架主要包含以下几个模块：1) 推理轨迹提取：从RLLM的推理过程中提取token序列。2) 关键性评分：计算每个token的“关键性评分”，衡量其对整体语义的影响程度。3) 主要语义向量（PSV）生成：根据关键性评分，选择最重要的token，并将其编码为PSV。4) 语义自适应水印嵌入：在回答阶段，利用PSV引导水印的嵌入，根据token与PSV的对齐程度调整水印强度。5) 水印检测：从生成文本中提取水印，并判断其是否存在。

关键创新：ReasonMark的关键创新在于其语义引导的水印嵌入机制。与传统的token级水印方法不同，ReasonMark不是简单地对每个token添加水印，而是根据token的语义重要性自适应地调整水印强度。这种方法能够更好地平衡水印的鲁棒性和生成质量，避免对推理逻辑的过度干扰。此外，将生成过程解耦为“思考阶段”和“回答阶段”也是一个重要的创新，使得水印的嵌入更加可控。

关键设计：关键性评分的计算方式（具体公式未知，但应与token对整体语义的贡献度相关），PSV的编码方式（如何将关键token的信息压缩到PSV中，可能涉及embedding和pooling等操作），语义自适应水印嵌入的具体实现（如何根据token与PSV的对齐程度调整水印强度，可能涉及注意力机制或相似度计算），水印检测的阈值设定（如何平衡检测精度和误报率）等技术细节是影响ReasonMark性能的关键。

📊 实验亮点

ReasonMark在多个任务上取得了显著的性能提升。在文本生成任务中，困惑度降低了0.35；在翻译任务中，BLEU得分提高了0.164；在数学问题求解任务中，准确率提高了0.67个百分点。同时，水印检测的AUC提高了0.34%，并且对各种攻击具有更强的鲁棒性。重要的是，这些性能提升是在几乎不增加延迟的情况下实现的。

🎯 应用场景

ReasonMark可应用于各种需要可追溯性和可信度的推理大语言模型应用场景，例如金融分析、法律咨询、医疗诊断等。通过嵌入水印，可以追踪模型的来源和使用情况，防止恶意使用或篡改。此外，该技术还有助于提高模型输出的可信度，增强用户对模型的信任。

📄 摘要（原文）

Reasoning Large Language Models (RLLMs) excelling in complex tasks present unique challenges for digital watermarking, as existing methods often disrupt logical coherence or incur high computational costs. Token-based watermarking techniques can corrupt the reasoning flow by applying pseudo-random biases, while semantic-aware approaches improve quality but introduce significant latency or require auxiliary models. This paper introduces ReasonMark, a novel watermarking framework specifically designed for reasoning-intensive LLMs. Our approach decouples generation into an undisturbed Thinking Phase and a watermarked Answering Phase. We propose a Criticality Score to identify semantically pivotal tokens from the reasoning trace, which are distilled into a Principal Semantic Vector (PSV). The PSV then guides a semantically-adaptive mechanism that modulates watermark strength based on token-PSV alignment, ensuring robustness without compromising logical integrity. Extensive experiments show ReasonMark surpasses state-of-the-art methods by reducing text Perplexity by 0.35, increasing translation BLEU score by 0.164, and raising mathematical accuracy by 0.67 points. These advancements are achieved alongside a 0.34% higher watermark detection AUC and stronger robustness to attacks, all with a negligible increase in latency. This work enables the traceable and trustworthy deployment of reasoning LLMs in real-world applications.

Distilling the Thought, Watermarking the Answer: A Principle Semantic Guided Watermark for Large Reasoning Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册