SaFeR-ToolKit: Structured Reasoning via Virtual Tool Calling for Multimodal Safety

作者: Zixuan Xu, Tiancheng He, Huahui Yi, Kun Wang, Xi Chen, Gongli Xi, Qiankun Li, Kang Li, Yang Liu, Zhigang Zeng

分类: cs.LG

发布日期: 2026-03-03

🔗 代码/项目: GITHUB

💡 一句话要点

SaFeR-ToolKit：通过虚拟工具调用实现多模态安全结构化推理

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态安全 视觉-语言模型 工具调用 结构化推理 对抗攻击防御

📋 核心要点

现有视觉-语言模型在安全性方面存在不足，容易受到多模态对抗攻击和过度拒绝，原因是缺乏对视觉证据和用户意图的有效结合。
SaFeR-ToolKit通过引入虚拟工具调用的概念，将安全决策过程形式化为可检查的协议，从而提升模型安全性。
实验表明，SaFeR-ToolKit在Qwen2.5-VL模型上显著提高了安全性、帮助性和推理严谨性，同时保持了模型的一般能力。

📝 摘要（中文）

视觉-语言模型仍然容易受到多模态越狱攻击和过度拒绝的影响，因为安全性取决于视觉证据和用户意图，而许多对齐流程仅监督最终响应。为了解决这个问题，我们提出了SaFeR-ToolKit，它将安全决策制定形式化为一个可检查的协议。具体来说，规划器指定角色、感知->推理->决策工具集以及受约束的转换图，而响应器在最终答案之前输出类型化的键值工具轨迹。为了使协议在实践中得到可靠的遵循，我们使用三阶段课程（SFT->DPO->GRPO）训练单个策略，其中GRPO直接监督工具的使用，而不仅仅是答案级别的反馈。我们的贡献是双重的：I. 数据集。第一个基于工具的安全推理数据集，包含31,654个示例（SFT 6k，DPO 18.6k，GRPO 6k）以及1k个保留评估示例。II. 实验。在Qwen2.5-VL上，SaFeR-ToolKit显著提高了3B（29.39/45.04/4.98 -> 84.40/71.13/78.87）和7B（53.21/52.92/19.26 -> 86.34/80.79/85.34）模型的安全性/帮助性/推理严谨性，同时保留了一般能力（3B：58.67 -> 59.21；7B：66.39 -> 66.81）。

🔬 方法详解

问题定义：现有视觉-语言模型在处理多模态安全问题时，容易受到对抗攻击，导致模型产生不安全或不适当的输出。现有的对齐方法通常只关注最终的答案，而忽略了中间的推理过程，使得模型难以有效地结合视觉信息和用户意图进行安全决策。

核心思路：SaFeR-ToolKit的核心思路是将安全决策过程分解为一系列可检查的步骤，通过引入虚拟工具调用，模拟人类专家进行安全评估的过程。这种方法允许模型在生成最终答案之前，显式地执行感知、推理和决策等步骤，从而提高安全性和可解释性。

技术框架：SaFeR-ToolKit的技术框架主要包括以下几个模块：1) 规划器：负责定义角色、工具集（感知、推理、决策）和转换图，用于指导模型的推理过程。2) 响应器：负责根据规划器的指导，输出类型化的键值工具轨迹，记录模型在每个步骤中使用的工具和参数。3) 训练流程：采用三阶段课程学习方法（SFT -> DPO -> GRPO），逐步提高模型的安全性和工具使用能力。

关键创新：SaFeR-ToolKit的关键创新在于引入了虚拟工具调用的概念，将安全决策过程形式化为一个可检查的协议。与传统的端到端训练方法相比，SaFeR-ToolKit能够更好地监督模型的推理过程，提高安全性和可解释性。此外，GRPO阶段直接监督工具的使用，而不仅仅是答案级别的反馈，进一步提高了模型的工具使用能力。

关键设计：在训练流程中，GRPO（Gradient Regularized Policy Optimization）阶段是关键。该阶段通过直接监督工具的使用，优化模型的策略，使其能够更有效地利用虚拟工具进行安全决策。具体的技术细节包括：损失函数的设计，用于衡量模型工具使用轨迹与专家轨迹之间的差异；以及正则化项的设计，用于防止模型过度拟合训练数据。

🖼️ 关键图片

📊 实验亮点

SaFeR-ToolKit在Qwen2.5-VL模型上取得了显著的性能提升。在3B模型上，安全性从29.39%提高到84.40%，帮助性从45.04%提高到71.13%，推理严谨性从4.98提高到78.87%。在7B模型上，安全性从53.21%提高到86.34%，帮助性从52.92%提高到80.79%，推理严谨性从19.26提高到85.34%。同时，模型的一般能力也得到了保持。

🎯 应用场景

SaFeR-ToolKit具有广泛的应用前景，可用于提高各种视觉-语言模型的安全性，例如聊天机器人、图像搜索引擎和自动驾驶系统。通过增强模型对恶意输入和不安全内容的处理能力，SaFeR-ToolKit可以帮助构建更安全、更可靠的人工智能系统，从而降低潜在的风险和危害。

📄 摘要（原文）

Vision-language models remain susceptible to multimodal jailbreaks and over-refusal because safety hinges on both visual evidence and user intent, while many alignment pipelines supervise only the final response. To address this, we present SaFeR-ToolKit, which formalizes safety decision-making as a checkable protocol. Concretely, a planner specifies a persona, a Perception $\to$ Reasoning $\to$ Decision tool set, and a constrained transition graph, while a responder outputs a typed key-value tool trace before the final answer. To make the protocol reliably followed in practice, we train a single policy with a three-stage curriculum (SFT $\to$ DPO $\to$ GRPO), where GRPO directly supervises tool usage beyond answer-level feedback. Our contributions are two-fold: I. Dataset. The first tool-based safety reasoning dataset, comprising 31,654 examples (SFT 6k, DPO 18.6k, GRPO 6k) plus 1k held-out evaluation. II. Experiments. On Qwen2.5-VL, SaFeR-ToolKit significantly improves Safety/Helpfulness/Reasoning Rigor on 3B (29.39/45.04/4.98 $\to$ 84.40/71.13/78.87) and 7B (53.21/52.92/19.26 $\to$ 86.34/80.79/85.34), while preserving general capabilities (3B: 58.67 $\to$ 59.21; 7B: 66.39 $\to$ 66.81). Codes are available at https://github.com/Duebassx/SaFeR_ToolKit.

SaFeR-ToolKit: Structured Reasoning via Virtual Tool Calling for Multimodal Safety

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理