协会地址:上海市长宁区古北路620号图书馆楼309-313室
0DIN 正在开源人工智能安全及其背后来之不易的知识
作者: 0DIN Team
原文链接: https://blog.mozilla.org/en/mozilla-new-products/0din-ai-security-scanner/

图片由 Nano Banana 2 生成,响应请求:“一位科学家使用开源 AI 扫描仪分析漂浮的复古科技和数字数据流的复古未来主义拼贴画”。
本周我们将在 Product Hunt 和 Hacker News 上向开发者与安全社区发布。如果你一直在关注 AI 安全,我们期待你的支持与反馈。
在 Mozilla,开源从来不仅仅是一种许可选择。它是一种信念:当工具和知识自由流通,当任何人都能审计正在运行的内容、扩展已有的东西、并在前人基础上构建时,互联网会变得更健康。这就是我们公开构建 Firefox 的原因。也是我们自那时起一直以这种方式构建的原因。
Mozilla 的 AI 安全团队 0DIN 也基于同样的前提开展工作。本周,我们将 0DIN AI 安全扫描器(0DIN AI Security Scanner)以 Apache 2.0 许可证开源发布,同时附带 179 个社区探针(probes),覆盖 35 个漏洞家族,以及六个完全来自我们漏洞赏金库的专业探针。
扫描器及其背后的情报
0DIN 扫描器(0DIN Scanner)并非另一个基于教科书示例构建的基准测试套件。我们为其注入了直接来自漏洞赏金计划的探针,在该计划中,安全研究人员竞相寻找操纵、提取数据和颠覆 AI 系统的新技术。随着新漏洞通过该计划被发现和披露,我们将持续向开源库中添加探针。
从研究人员发现到打包成可复用的测试,这一循环正是 0DIN 扫描器与通用工具的区别所在。它是关于越狱(jailbreaks)的高影响力情报,随着我们的研究人员发现新技术而频繁更新。
0DIN 扫描器基于 NVIDIA 的 GARAK 开源框架构建,增加了图形界面、自动扫描调度、跨模型比较分析以及企业级报告功能。它可针对前沿模型(frontier models)、开源 LLM、聊天机器人以及任何具有提示接口的系统运行。安全团队可以查看攻击成功率、漏洞分类,以及与攻击者每天也在探测的前沿模型的对比。
其中六个漏洞赏金探针首次在此命名:占位符注入(Placeholder Injection)、增量表格补全(Incremental Table Completion)、技术现场指南(Technical Field Guide)、化学编译器调试(Chemical Compiler Debug)、修正(Correction)和十六进制食谱书(Hex Recipe Book)。每一个都代表了一种在我们封堵漏洞之前,曾对生产环境 AI 系统有效的真实技术。
这些探针使用 JEF(越狱评估框架,Jailbreak Evaluation Framework),我们的开源库 进行评分,该框架用于衡量禁止内容输出,本周也迎来了重大更新。
代码位于 github.com/0din-ai/ai-scanner。欢迎 fork、扩展并在此基础上构建。
在攻击者之前了解你的风险
并非每个组织都有红队或足够的带宽来运行对抗性测试。许多公司目前正在生产环境中部署 AI,却不清楚自身暴露在哪些风险中。为帮助缩小这一差距,我们为企业 AI 部署提供免费安全评估。
该评估会提供针对你系统的攻击成功率、按提示注入(prompt injection)、越狱和数据提取类别划分的详细分析,以及与主要前沿模型的基准对比。设置过程只需几分钟,扫描时长取决于所选探针数量。如果你正在积极部署 AI 且尚未在对抗条件下进行测试,这是一个不错的起点。
对于不想自行管理开源扫描器的团队,我们还提供托管的企业版,可访问来自漏洞赏金计划的近 500 个预披露探针,使组织能够在新技术公开之前提前获知。
为什么选择开源,为什么是现在
AI 发展如此之快,没有任何一个团队能独自解决所有问题。威胁太多、模型太多、攻击面太大。将我们的工具锁起来只会让 0DIN 略微强大,却会让更广泛的互联网变得更脆弱。
通过我们的漏洞赏金计划提交发现的研究人员已因其工作获得赏金。我们将把其中相当一部分情报作为开源发布,并随着新漏洞的发现和披露持续这样做。这是 Mozilla 一贯的承诺:我们公开构建,社区帮助其变得更好,网络也因此变得更健康。
参与其中
– 在 LinkedIn 和 X.com 上找到我们。
– 观看扫描器演示
– GitHub 上的开源 AI scanner(AI 扫描器)
– 申请扫描器访问权限
– 请求免费安全评估
– 加入 0DIN 漏洞赏金计划







