SaFeR-ToolKit: Structured Reasoning via Virtual Tool Calling for Multimodal Safety

📄 arXiv: 2603.02635v1 📥 PDF

作者: Zixuan Xu, Tiancheng He, Huahui Yi, Kun Wang, Xi Chen, Gongli Xi, Qiankun Li, Kang Li, Yang Liu, Zhigang Zeng

分类: cs.LG

发布日期: 2026-03-03

🔗 代码/项目: GITHUB


💡 一句话要点

SaFeR-ToolKit:通过虚拟工具调用实现多模态安全结构化推理

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态安全 视觉-语言模型 工具调用 结构化推理 对抗攻击防御

📋 核心要点

  1. 现有视觉-语言模型在安全性方面存在不足,容易受到多模态对抗攻击和过度拒绝,原因是缺乏对视觉证据和用户意图的有效结合。
  2. SaFeR-ToolKit通过引入虚拟工具调用的概念,将安全决策过程形式化为可检查的协议,从而提升模型安全性。
  3. 实验表明,SaFeR-ToolKit在Qwen2.5-VL模型上显著提高了安全性、帮助性和推理严谨性,同时保持了模型的一般能力。

📝 摘要(中文)

视觉-语言模型仍然容易受到多模态越狱攻击和过度拒绝的影响,因为安全性取决于视觉证据和用户意图,而许多对齐流程仅监督最终响应。为了解决这个问题,我们提出了SaFeR-ToolKit,它将安全决策制定形式化为一个可检查的协议。具体来说,规划器指定角色、感知->推理->决策工具集以及受约束的转换图,而响应器在最终答案之前输出类型化的键值工具轨迹。为了使协议在实践中得到可靠的遵循,我们使用三阶段课程(SFT->DPO->GRPO)训练单个策略,其中GRPO直接监督工具的使用,而不仅仅是答案级别的反馈。我们的贡献是双重的:I. 数据集。第一个基于工具的安全推理数据集,包含31,654个示例(SFT 6k,DPO 18.6k,GRPO 6k)以及1k个保留评估示例。II. 实验。在Qwen2.5-VL上,SaFeR-ToolKit显著提高了3B(29.39/45.04/4.98 -> 84.40/71.13/78.87)和7B(53.21/52.92/19.26 -> 86.34/80.79/85.34)模型的安全性/帮助性/推理严谨性,同时保留了一般能力(3B:58.67 -> 59.21;7B:66.39 -> 66.81)。

🔬 方法详解

问题定义:现有视觉-语言模型在处理多模态安全问题时,容易受到对抗攻击,导致模型产生不安全或不适当的输出。现有的对齐方法通常只关注最终的答案,而忽略了中间的推理过程,使得模型难以有效地结合视觉信息和用户意图进行安全决策。

核心思路:SaFeR-ToolKit的核心思路是将安全决策过程分解为一系列可检查的步骤,通过引入虚拟工具调用,模拟人类专家进行安全评估的过程。这种方法允许模型在生成最终答案之前,显式地执行感知、推理和决策等步骤,从而提高安全性和可解释性。

技术框架:SaFeR-ToolKit的技术框架主要包括以下几个模块:1) 规划器:负责定义角色、工具集(感知、推理、决策)和转换图,用于指导模型的推理过程。2) 响应器:负责根据规划器的指导,输出类型化的键值工具轨迹,记录模型在每个步骤中使用的工具和参数。3) 训练流程:采用三阶段课程学习方法(SFT -> DPO -> GRPO),逐步提高模型的安全性和工具使用能力。

关键创新:SaFeR-ToolKit的关键创新在于引入了虚拟工具调用的概念,将安全决策过程形式化为一个可检查的协议。与传统的端到端训练方法相比,SaFeR-ToolKit能够更好地监督模型的推理过程,提高安全性和可解释性。此外,GRPO阶段直接监督工具的使用,而不仅仅是答案级别的反馈,进一步提高了模型的工具使用能力。

关键设计:在训练流程中,GRPO(Gradient Regularized Policy Optimization)阶段是关键。该阶段通过直接监督工具的使用,优化模型的策略,使其能够更有效地利用虚拟工具进行安全决策。具体的技术细节包括:损失函数的设计,用于衡量模型工具使用轨迹与专家轨迹之间的差异;以及正则化项的设计,用于防止模型过度拟合训练数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SaFeR-ToolKit在Qwen2.5-VL模型上取得了显著的性能提升。在3B模型上,安全性从29.39%提高到84.40%,帮助性从45.04%提高到71.13%,推理严谨性从4.98提高到78.87%。在7B模型上,安全性从53.21%提高到86.34%,帮助性从52.92%提高到80.79%,推理严谨性从19.26提高到85.34%。同时,模型的一般能力也得到了保持。

🎯 应用场景

SaFeR-ToolKit具有广泛的应用前景,可用于提高各种视觉-语言模型的安全性,例如聊天机器人、图像搜索引擎和自动驾驶系统。通过增强模型对恶意输入和不安全内容的处理能力,SaFeR-ToolKit可以帮助构建更安全、更可靠的人工智能系统,从而降低潜在的风险和危害。

📄 摘要(原文)

Vision-language models remain susceptible to multimodal jailbreaks and over-refusal because safety hinges on both visual evidence and user intent, while many alignment pipelines supervise only the final response. To address this, we present SaFeR-ToolKit, which formalizes safety decision-making as a checkable protocol. Concretely, a planner specifies a persona, a Perception $\to$ Reasoning $\to$ Decision tool set, and a constrained transition graph, while a responder outputs a typed key-value tool trace before the final answer. To make the protocol reliably followed in practice, we train a single policy with a three-stage curriculum (SFT $\to$ DPO $\to$ GRPO), where GRPO directly supervises tool usage beyond answer-level feedback. Our contributions are two-fold: I. Dataset. The first tool-based safety reasoning dataset, comprising 31,654 examples (SFT 6k, DPO 18.6k, GRPO 6k) plus 1k held-out evaluation. II. Experiments. On Qwen2.5-VL, SaFeR-ToolKit significantly improves Safety/Helpfulness/Reasoning Rigor on 3B (29.39/45.04/4.98 $\to$ 84.40/71.13/78.87) and 7B (53.21/52.92/19.26 $\to$ 86.34/80.79/85.34), while preserving general capabilities (3B: 58.67 $\to$ 59.21; 7B: 66.39 $\to$ 66.81). Codes are available at https://github.com/Duebassx/SaFeR_ToolKit.