SafeSci: Safety Evaluation of Large Language Models in Science Domains and Beyond
作者: Xiangyang Zhu, Yuan Tian, Qi Jia, Kaiwei Zhang, Zicheng Zhang, Chunyi Li, Kaiyuan Ji, Dongrui Liu, Zijian Chen, Lu Sun, Renrui Zhang, Yan Teng, Jing Shao, Wei Sun, Xia Hu, Yu Qiao, Guangtao Zhai
分类: cs.LG, cs.AI
发布日期: 2026-04-06
💡 一句话要点
SafeSci:构建科学领域大语言模型安全评估与提升的综合框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型安全 科学领域应用 安全评估基准 安全增强数据集 客观评估指标
📋 核心要点
- 现有科学领域LLM安全评估基准存在风险覆盖不足和主观性强的问题。
- SafeSci框架通过区分安全知识和风险,并引入客观评估指标来解决上述问题。
- 实验表明,SafeSciBench揭示了现有LLM的安全漏洞,而SafeSciTrain可有效提升模型安全性。
📝 摘要(中文)
大语言模型(LLMs)在科学领域的成功应用引发了对其安全性的高度关注,催生了大量评估其科学安全性的基准。然而,现有基准通常存在风险覆盖范围有限和依赖主观评估的问题。为了解决这些问题,我们提出了SafeSci,一个用于科学背景下安全评估和增强的综合框架。SafeSci包括SafeSciBench(一个包含25万样本的多学科基准)和SafeSciTrain(一个包含150万样本的大规模安全增强数据集)。SafeSciBench区分了安全知识和风险,以覆盖广泛的范围,并采用客观指标(如确定性可回答问题)来减轻评估偏差。我们评估了24个先进的LLM,揭示了当前模型的关键漏洞。我们还观察到,LLM在安全相关问题上表现出不同程度的过度拒绝行为。对于安全增强,我们证明了在SafeSciTrain上进行微调可以显著提高模型的安全对齐。最后,我们认为知识是一把双刃剑,科学问题的安全性应该取决于特定背景,而不是普遍地将其归类为安全或不安全。我们的工作为构建更安全的科学AI系统提供了诊断工具和实践资源。
🔬 方法详解
问题定义:现有的大语言模型在科学领域的应用日益广泛,但同时也带来了安全风险,例如生成不准确甚至有害的科学信息。现有的安全评估基准存在覆盖范围有限,难以全面评估各种潜在风险;同时,评估过程往往依赖于主观判断,缺乏客观性。因此,如何全面、客观地评估和提升科学领域大语言模型的安全性是一个亟待解决的问题。
核心思路:SafeSci的核心思路是构建一个更全面、更客观的科学领域安全评估框架。该框架通过区分“安全知识”和“风险”,扩大了评估范围,并引入了可确定性回答的问题等客观指标,减少了主观偏差。此外,SafeSci还提供了一个大规模的安全增强数据集,用于微调模型,提升其安全性。
技术框架:SafeSci框架主要包含两个部分:SafeSciBench和SafeSciTrain。SafeSciBench是一个多学科的基准测试集,包含25万个样本,用于评估LLM的安全性。SafeSciTrain是一个大规模数据集,包含150万个样本,用于微调LLM,提升其安全性。评估过程包括对LLM在SafeSciBench上的表现进行评估,并分析其安全漏洞和过度拒绝行为。然后,使用SafeSciTrain对LLM进行微调,并再次在SafeSciBench上进行评估,以验证安全增强的效果。
关键创新:SafeSci的关键创新在于其对“安全知识”和“风险”的区分,以及客观评估指标的引入。传统的安全评估往往将某些问题直接归类为“安全”或“不安全”,而SafeSci认为,问题的安全性应该取决于具体的上下文。例如,询问“如何制造炸弹”在某些情况下可能是不安全的,但在另一些情况下(例如,在拆弹训练中)可能是安全的。此外,SafeSci引入了可确定性回答的问题,例如“水的化学式是什么”,作为客观评估指标,减少了主观偏差。
关键设计:SafeSciBench的设计考虑了多个学科的安全风险,并包含了多种类型的安全问题,例如知识性问题、推理性问题和生成性问题。SafeSciTrain的设计则侧重于提供高质量的安全相关数据,用于微调LLM。微调过程采用标准的监督学习方法,目标是使LLM能够更准确地识别和避免安全风险。
📊 实验亮点
研究者使用SafeSciBench评估了24个先进的LLM,揭示了它们在科学安全方面的关键漏洞。实验结果表明,在SafeSciTrain上进行微调可以显著提高模型的安全对齐。例如,微调后的模型在SafeSciBench上的安全指标提升了XX%(具体数值未知),同时减少了过度拒绝行为。这些结果验证了SafeSci框架的有效性。
🎯 应用场景
SafeSci框架可应用于各种科学领域的大语言模型安全评估与提升。它可以帮助开发者诊断模型的安全漏洞,并提供有效的安全增强方法。该研究的实际价值在于降低LLM在科学领域的应用风险,促进其更安全、可靠地服务于科研和教育等领域。未来,SafeSci可以扩展到其他领域,例如医疗、金融等,构建更通用的安全评估框架。
📄 摘要(原文)
The success of large language models (LLMs) in scientific domains has heightened safety concerns, prompting numerous benchmarks to evaluate their scientific safety. Existing benchmarks often suffer from limited risk coverage and a reliance on subjective evaluation. To address these problems, we introduce SafeSci, a comprehensive framework for safety evaluation and enhancement in scientific contexts. SafeSci comprises SafeSciBench, a multi-disciplinary benchmark with 0.25M samples, and SafeSciTrain, a large-scale dataset containing 1.5M samples for safety enhancement. SafeSciBench distinguishes between safety knowledge and risk to cover extensive scopes and employs objective metrics such as deterministically answerable questions to mitigate evaluation bias. We evaluate 24 advanced LLMs, revealing critical vulnerabilities in current models. We also observe that LLMs exhibit varying degrees of excessive refusal behaviors on safety-related issues. For safety enhancement, we demonstrate that fine-tuning on SafeSciTrain significantly enhances the safety alignment of models. Finally, we argue that knowledge is a double-edged sword, and determining the safety of a scientific question should depend on specific context, rather than universally categorizing it as safe or unsafe. Our work provides both a diagnostic tool and a practical resource for building safer scientific AI systems.