A Different Approach to AI Safety: Proceedings from the Columbia Convening on Openness in Artificial Intelligence and AI Safety
作者: Camille François, Ludovic Péran, Ayah Bdeir, Nouha Dziri, Will Hawkins, Yacine Jernite, Sayash Kapoor, Juliet Shen, Heidy Khlaaf, Kevin Klyman, Nik Marda, Marie Pellat, Deb Raji, Divya Siddarth, Aviya Skowron, Joseph Spisak, Madhulika Srikumar, Victor Storchan, Audrey Tang, Jen Weedon
分类: cs.AI
发布日期: 2025-06-27
备注: Proceedings from the Columbia Convening on Openness in Artificial Intelligence and AI Safety
💡 一句话要点
提出开放性与安全性结合的AI研究议程以应对AI安全挑战
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI安全 开源模型 参与式机制 技术干预 内容过滤 多模态基准 公共治理
📋 核心要点
- 当前AI安全领域面临的主要挑战是缺乏有效的多模态和多语言基准,以及对抗性攻击的防御不足。
- 论文提出通过开放性(透明权重、可互操作工具和公共治理)来增强AI系统的安全性,强调参与式输入和多元监督的重要性。
- 研究结果为未来的AI安全研究提供了五个优先方向,旨在建立一个开放、可问责的AI安全学科基础。
📝 摘要(中文)
随着开放权重和开源基础模型的快速发展,确保AI系统安全的责任和机会正在重新塑造。本文报告了2024年11月19日在旧金山举行的哥伦比亚AI开放性与安全会议的成果,以及为期六周的准备项目,参与者包括来自学术界、工业界、民间社会和政府的四十五位研究人员、工程师和政策领导者。通过参与式的解决方案导向过程,工作组制定了安全与开源AI交叉领域的研究议程,现有与所需技术干预和开源工具的映射,以及内容安全过滤生态系统的映射和未来研究与开发的路线图。研究发现,开放性可以通过促进独立审查、去中心化缓解和文化多元监督来增强安全性,但在多模态和多语言基准、对抗性攻击的防御以及参与机制方面仍存在显著差距。最后,论文提出了五个优先研究方向的路线图。
🔬 方法详解
问题定义:论文旨在解决AI系统安全性不足的问题,尤其是在开放源代码和开放权重模型快速发展的背景下,现有方法在多模态和多语言基准、对抗性攻击防御等方面存在显著缺陷。
核心思路:论文的核心思路是通过增强开放性来提升AI安全性,具体包括透明的模型权重、可互操作的工具和公共治理结构,以促进独立审查和去中心化的安全措施。
技术框架:整体架构包括三个主要模块:研究议程的制定、现有与所需技术干预的映射、内容安全过滤生态系统的构建。每个模块都通过参与式的方式进行设计,以确保多方利益相关者的声音被纳入。
关键创新:最重要的技术创新在于提出了一种新的研究框架,将开放性与安全性结合,强调了多元文化监督的重要性,这与传统的集中式安全方法形成鲜明对比。
关键设计:在设计上,论文强调了参与式机制的建立,提出了未来内容过滤器的设计方向,并建议建立生态系统级的安全基础设施,以应对AI带来的潜在危害。具体的参数设置和技术细节尚未明确。
📊 实验亮点
研究结果表明,通过开放性措施,AI系统的安全性得到了显著提升。具体而言,提出的研究议程和技术干预映射为未来的AI安全研究提供了清晰的方向,尤其是在多模态和多语言环境下的应用。
🎯 应用场景
该研究的潜在应用领域包括AI模型的开发与部署、政策制定、以及AI安全标准的建立。通过提供开放性和安全性的结合,能够为各类AI应用提供更为安全的环境,减少AI技术对社会的潜在危害。
📄 摘要(原文)
The rapid rise of open-weight and open-source foundation models is intensifying the obligation and reshaping the opportunity to make AI systems safe. This paper reports outcomes from the Columbia Convening on AI Openness and Safety (San Francisco, 19 Nov 2024) and its six-week preparatory programme involving more than forty-five researchers, engineers, and policy leaders from academia, industry, civil society, and government. Using a participatory, solutions-oriented process, the working groups produced (i) a research agenda at the intersection of safety and open source AI; (ii) a mapping of existing and needed technical interventions and open source tools to safely and responsibly deploy open foundation models across the AI development workflow; and (iii) a mapping of the content safety filter ecosystem with a proposed roadmap for future research and development. We find that openness -- understood as transparent weights, interoperable tooling, and public governance -- can enhance safety by enabling independent scrutiny, decentralized mitigation, and culturally plural oversight. However, significant gaps persist: scarce multimodal and multilingual benchmarks, limited defenses against prompt-injection and compositional attacks in agentic systems, and insufficient participatory mechanisms for communities most affected by AI harms. The paper concludes with a roadmap of five priority research directions, emphasizing participatory inputs, future-proof content filters, ecosystem-wide safety infrastructure, rigorous agentic safeguards, and expanded harm taxonomies. These recommendations informed the February 2025 French AI Action Summit and lay groundwork for an open, plural, and accountable AI safety discipline.