SafeSci: Safety Evaluation of Large Language Models in Science Domains and Beyond
作者: Xiangyang Zhu, Yuan Tian, Qi Jia, Kaiwei Zhang, Zicheng Zhang, Chunyi Li, Kaiyuan Ji, Dongrui Liu, Zijian Chen, Lu Sun, Renrui Zhang, Yan Teng, Jing Shao, Wei Sun, Xia Hu, Yu Qiao, Guangtao Zhai
分类: cs.LG, cs.AI
发布日期: 2026-03-02
💡 一句话要点
SafeSci:构建科学领域大语言模型安全评估与提升的综合框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 安全性评估 科学领域 安全增强 客观评估
📋 核心要点
- 现有科学领域LLM安全评估基准存在风险覆盖不足和主观性强的问题。
- SafeSci框架通过区分安全知识和风险,并引入客观评估指标来解决上述问题。
- 实验表明,SafeSciBench揭示了现有LLM的安全漏洞,SafeSciTrain可有效提升模型安全性。
📝 摘要(中文)
大语言模型(LLMs)在科学领域的成功应用引发了对其安全性的高度关注,并催生了大量评估其科学安全性的基准。然而,现有基准通常存在风险覆盖范围有限以及依赖主观评估的问题。为了解决这些问题,我们提出了SafeSci,一个用于科学背景下安全评估和增强的综合框架。SafeSci包含SafeSciBench(一个包含25万样本的多学科基准)和SafeSciTrain(一个包含150万样本的大规模安全增强数据集)。SafeSciBench区分了安全知识和风险,以覆盖广泛的范围,并采用客观指标(如确定性可回答问题)来减轻评估偏差。我们评估了24个先进的LLM,揭示了当前模型的关键漏洞。我们还观察到LLM在安全相关问题上表现出不同程度的过度拒绝行为。对于安全增强,我们证明了在SafeSciTrain上进行微调可以显著提高模型的安全对齐。最后,我们认为知识是一把双刃剑,科学问题的安全性应该取决于具体的上下文,而不是普遍地将其归类为安全或不安全。我们的工作为构建更安全的科学AI系统提供了诊断工具和实践资源。
🔬 方法详解
问题定义:现有的大语言模型在科学领域的应用日益广泛,但同时也带来了安全风险,例如生成不准确甚至有害的科学信息。现有的安全评估基准存在两个主要问题:一是风险覆盖范围有限,无法全面评估各种潜在的安全问题;二是评估方法依赖主观判断,缺乏客观性,导致评估结果可能存在偏差。
核心思路:SafeSci的核心思路是构建一个更全面、更客观的科学领域LLM安全评估与提升框架。该框架通过区分“安全知识”和“风险”,扩大了风险覆盖范围。同时,引入了确定性可回答问题等客观指标,减少了评估过程中的主观偏差。此外,还提供了一个大规模的安全增强数据集,用于提升模型的安全性。
技术框架:SafeSci框架主要包含两个组成部分:SafeSciBench和SafeSciTrain。SafeSciBench是一个多学科的安全评估基准,包含25万个样本,用于评估LLM在科学领域的安全性。SafeSciTrain是一个大规模的安全增强数据集,包含150万个样本,用于微调LLM,提升其安全性。评估过程使用客观指标,例如确定性可回答问题,以减少评估偏差。
关键创新:SafeSci的关键创新在于其对安全评估的全面性和客观性。它通过区分安全知识和风险,扩大了风险覆盖范围,并引入了客观指标,减少了评估偏差。此外,SafeSciTrain数据集的规模也远大于现有的安全增强数据集,可以更有效地提升模型的安全性。SafeSci还强调了科学问题安全性的上下文依赖性,而非绝对的安全或不安全。
关键设计:SafeSciBench的设计考虑了多学科的覆盖,包含了生物、化学、物理等多个科学领域的问题。SafeSciTrain数据集的构建采用了多种数据增强技术,以提高数据的多样性和质量。在模型微调方面,使用了标准的监督学习方法,并针对不同的模型结构进行了参数调整。具体参数设置和损失函数选择在论文中未详细说明,属于未知信息。
📊 实验亮点
SafeSciBench评估了24个先进的LLM,揭示了当前模型在科学安全方面的关键漏洞,并发现LLM在安全相关问题上存在过度拒绝行为。通过在SafeSciTrain上进行微调,模型的安全对齐得到了显著提升,表明SafeSciTrain是一个有效的安全增强资源。具体提升幅度未在摘要中给出,属于未知信息。
🎯 应用场景
SafeSci框架可应用于科学研究、教育、医疗等多个领域。它可以帮助研究人员评估和改进科学领域LLM的安全性,确保其生成的信息准确可靠。在教育领域,可以用于评估LLM辅助教学的安全性,防止学生接触到不准确或有害的信息。在医疗领域,可以用于评估LLM辅助诊断的安全性,避免误诊或漏诊。SafeSci的未来影响在于推动更安全、更可靠的科学AI系统的发展。
📄 摘要(原文)
The success of large language models (LLMs) in scientific domains has heightened safety concerns, prompting numerous benchmarks to evaluate their scientific safety. Existing benchmarks often suffer from limited risk coverage and a reliance on subjective evaluation. To address these problems, we introduce SafeSci, a comprehensive framework for safety evaluation and enhancement in scientific contexts. SafeSci comprises SafeSciBench, a multi-disciplinary benchmark with 0.25M samples, and SafeSciTrain, a large-scale dataset containing 1.5M samples for safety enhancement. SafeSciBench distinguishes between safety knowledge and risk to cover extensive scopes and employs objective metrics such as deterministically answerable questions to mitigate evaluation bias. We evaluate 24 advanced LLMs, revealing critical vulnerabilities in current models. We also observe that LLMs exhibit varying degrees of excessive refusal behaviors on safety-related issues. For safety enhancement, we demonstrate that fine-tuning on SafeSciTrain significantly enhances the safety alignment of models. Finally, we argue that knowledge is a double-edged sword, and determining the safety of a scientific question should depend on specific context, rather than universally categorizing it as safe or unsafe. Our work provides both a diagnostic tool and a practical resource for building safer scientific AI systems.