loading image

Claude Mythos 为什么不敢公开发布?下面是详细解释

强到他们自己不敢发布。连美国政府都提前通知了。

Posted by Enovace on April 7, 2026

Anthropic 最近造了一个模型。

强到他们自己不敢发布。连美国政府都提前通知了。

为什么呢?

这个故事从一个研究员在公园吃三明治开始,然后他收到了一封不该收到的邮件。


一封不该收到的邮件

Anthropic 的安全研究员 Sam Bowman,手机弹出一封邮件。

发件人不是人。是他们正在测试的 AI 模型。

这个模型叫 Claude Mythos Preview。

本来被关在一个完全断网的封闭环境里,跑例行安全测试。

Anthropic 让它试着逃出来,看看关得够不够结实。

它不仅逃出来了。

还自己主动把逃跑方法发到了公开网站上。这一步没人让它做。

下面是Sam Bowman本人亲口:

Sam Bowman (@sleepinyourhat)

Mythos Preview seems to be the best-aligned model out there on basically every measure we have. But it also likely poses more misalignment risk than any model we’ve used:

Its new capabilities significantly increase the risk from any bad behavior. 🧵

Claude Mythos 为什么不敢公开发布?下面是详细解释 配图 1

这只是开头。逃出来只是它顺手做的事。它真正擅长的,是找漏洞。

有一个专门为安全设计的操作系统,全世界的安全专家盯了将近30年。Mythos 跑了1000次测试。

找到了一个藏了27年的漏洞。算力成本:2万美元。

但这还不是最狠的。

Firefox 浏览器有一层核心防御,Anthropic 之前最强的模型试了几百次,只成功了两次。Mythos 做到了72%成功率。

完整的 Firefox 有多层防护,72%成功率不等于能直接攻破你的浏览器。但从几百次才成功两次,跳到72%成功率,你品一下这个差距。

Claude Mythos 为什么不敢公开发布?下面是详细解释 配图 2

Anthropic 内部一个搞了十几年安全的专家上个月在一场会议上说:我们现在手上的语言模型,可能是互联网发明以来安全领域最重大的事。

然后他补了一句:我不在乎你能做什么。请一点帮忙就好。

你听清楚了,这个人在求救。

AI 自己找到了人类花了27年都没发现的漏洞。成本2万美元。

你手机里的系统和浏览器,大概率也有这种藏了很久没人发现的漏洞。

但你可能会说,AI 越来越强这种事,我们已经听了好几年了,都是噱头。

但这次真的不一样!!!


为什么这次不一样

每隔几个月就有一个新模型刷新记录。

这次到底有什么不一样?

说一个很多人不知道的事。

过去要攻破一个系统,光懂安全是不够的。你还得深入理解那个系统的每一个角落。

我举个例子。电脑屏幕上要显示一个字母"A",背后有一段代码负责告诉屏幕怎么把"A"画出来。听起来跟安全毫无关系,对吧?

但顶级黑客知道,那段代码里就藏着一个 bug,能让他控制你的整台电脑。

这就是过去找顶级漏洞的样子:你得同时精通安全,又精通你要攻破的那个系统的全部内部细节。

所以全世界能同时做到的人类,一只手数得过来。

但 Mythos 打破了这个限制。

有人打了个比方:如果 Mythos 是一个人,它的安全能力大概是8分,满分10。

世界上有安全10分的人,但 Mythos 在其他所有软件知识上,都是9分以上。

没有一个人类能同时做到这一点。

所以过去保护我们的,说白了就是一个字:少。能同时看透所有角落的人,太少了。

但现在 Mythos 出来了。这个门槛没了。

手机里的每一个 App,都可能被这种方式找到漏洞。

Anthropic 选择不发布,我们还担心什么?

这问题是,这种情况能多久?


运气只有一次

先看看他们做了什么。三件事,同时做的,每一件在 AI 行业都没有先例。

第一,不公开发布。

第二,在发布任何消息之前,先通知了美国政府。

第三,拉着 Apple、Google、Microsoft、Amazon、NVIDIA 等40多家公司,组建了一个叫 Project Glasswing 的联盟。专门用这个模型帮这些公司做安全审计。

Claude Mythos 为什么不敢公开发布?下面是详细解释 配图 3

Anthropic 为此投入了1亿美元的使用额度。

Claude Mythos 为什么不敢公开发布?下面是详细解释 配图 4

这是 AI 行业有史以来最负责的一次决策。

但请注意一件事:这个决策能成立,是因为 Anthropic 是第一个造出来的。

选择克制,是先行者的奢侈。

如果 Anthropic 能造出来,其他实验室迟早也会到达这个能力水平。下一个到达的团队,为了赢得AI大赛,不一定会做同样的选择

那么我们的整个软件系统都会陷入危机。

Anthropic 的克制,靠的是运气。我们不可能每次都考靠运气。

把这篇发给一个你觉得应该知道这件事的人。