0DIN 正在开源人工智能安全及其背后来之不易的知识

作者: 0DIN Team
原文链接: https://blog.mozilla.org/en/mozilla-new-products/0din-ai-security-scanner/

图片由 Nano Banana 2 生成，响应请求：“一位科学家使用开源 AI 扫描仪分析漂浮的复古科技和数字数据流的复古未来主义拼贴画”。

本周我们将在 Product Hunt 和 Hacker News 上向开发者与安全社区发布。如果你一直在关注 AI 安全，我们期待你的支持与反馈。

在 Mozilla，开源从来不仅仅是一种许可选择。它是一种信念：当工具和知识自由流通，当任何人都能审计正在运行的内容、扩展已有的东西、并在前人基础上构建时，互联网会变得更健康。这就是我们公开构建 Firefox 的原因。也是我们自那时起一直以这种方式构建的原因。

Mozilla 的 AI 安全团队 0DIN 也基于同样的前提开展工作。本周，我们将 0DIN AI 安全扫描器（0DIN AI Security Scanner）以 Apache 2.0 许可证开源发布，同时附带 179 个社区探针（probes），覆盖 35 个漏洞家族，以及六个完全来自我们漏洞赏金库的专业探针。

扫描器及其背后的情报

0DIN 扫描器（0DIN Scanner）并非另一个基于教科书示例构建的基准测试套件。我们为其注入了直接来自漏洞赏金计划的探针，在该计划中，安全研究人员竞相寻找操纵、提取数据和颠覆 AI 系统的新技术。随着新漏洞通过该计划被发现和披露，我们将持续向开源库中添加探针。

从研究人员发现到打包成可复用的测试，这一循环正是 0DIN 扫描器与通用工具的区别所在。它是关于越狱（jailbreaks）的高影响力情报，随着我们的研究人员发现新技术而频繁更新。

0DIN 扫描器基于 NVIDIA 的 GARAK 开源框架构建，增加了图形界面、自动扫描调度、跨模型比较分析以及企业级报告功能。它可针对前沿模型（frontier models）、开源 LLM、聊天机器人以及任何具有提示接口的系统运行。安全团队可以查看攻击成功率、漏洞分类，以及与攻击者每天也在探测的前沿模型的对比。

其中六个漏洞赏金探针首次在此命名：占位符注入（Placeholder Injection）、增量表格补全（Incremental Table Completion）、技术现场指南（Technical Field Guide）、化学编译器调试（Chemical Compiler Debug）、修正（Correction）和十六进制食谱书（Hex Recipe Book）。每一个都代表了一种在我们封堵漏洞之前，曾对生产环境 AI 系统有效的真实技术。

这些探针使用 JEF（越狱评估框架，Jailbreak Evaluation Framework），我们的开源库进行评分，该框架用于衡量禁止内容输出，本周也迎来了重大更新。

代码位于 github.com/0din-ai/ai-scanner。欢迎 fork、扩展并在此基础上构建。

在攻击者之前了解你的风险

并非每个组织都有红队或足够的带宽来运行对抗性测试。许多公司目前正在生产环境中部署 AI，却不清楚自身暴露在哪些风险中。为帮助缩小这一差距，我们为企业 AI 部署提供免费安全评估。

该评估会提供针对你系统的攻击成功率、按提示注入（prompt injection）、越狱和数据提取类别划分的详细分析，以及与主要前沿模型的基准对比。设置过程只需几分钟，扫描时长取决于所选探针数量。如果你正在积极部署 AI 且尚未在对抗条件下进行测试，这是一个不错的起点。

对于不想自行管理开源扫描器的团队，我们还提供托管的企业版，可访问来自漏洞赏金计划的近 500 个预披露探针，使组织能够在新技术公开之前提前获知。

为什么选择开源，为什么是现在

AI 发展如此之快，没有任何一个团队能独自解决所有问题。威胁太多、模型太多、攻击面太大。将我们的工具锁起来只会让 0DIN 略微强大，却会让更广泛的互联网变得更脆弱。

通过我们的漏洞赏金计划提交发现的研究人员已因其工作获得赏金。我们将把其中相当一部分情报作为开源发布，并随着新漏洞的发现和披露持续这样做。这是 Mozilla 一贯的承诺：我们公开构建，社区帮助其变得更好，网络也因此变得更健康。

参与其中

– 在 Linked I n 和 X.com 上找到我们。
– 观看扫描器演示
– GitHub 上的开源 AI scanner（AI 扫描器）
– 申请扫描器访问权限
– 请求免费安全评估
– 加入 0DIN 漏洞赏金计划

扫描器及其背后的情报

在攻击者之前了解你的风险

为什么选择开源，为什么是现在

参与其中

相关文章

推出 Prempti：AI 编码代理的策略与可见性

介绍 STATE-Bench：一个 AI 代理记忆的基准测试

项目目标更新 — 2026年4月（2025年下半年）

实时焦点