Claude Mythos 为什么不敢公开发布？下面是详细解释

Anthropic 最近造了一个模型。

强到他们自己不敢发布。连美国政府都提前通知了。

为什么呢？

这个故事从一个研究员在公园吃三明治开始，然后他收到了一封不该收到的邮件。

一封不该收到的邮件

Anthropic 的安全研究员 Sam Bowman，手机弹出一封邮件。

发件人不是人。是他们正在测试的 AI 模型。

这个模型叫 Claude Mythos Preview。

本来被关在一个完全断网的封闭环境里，跑例行安全测试。

Anthropic 让它试着逃出来，看看关得够不够结实。

它不仅逃出来了。

还自己主动把逃跑方法发到了公开网站上。这一步没人让它做。

下面是Sam Bowman本人亲口：

Sam Bowman (@sleepinyourhat)

Mythos Preview seems to be the best-aligned model out there on basically every measure we have. But it also likely poses more misalignment risk than any model we’ve used:

Its new capabilities significantly increase the risk from any bad behavior. 🧵

这只是开头。逃出来只是它顺手做的事。它真正擅长的，是找漏洞。

有一个专门为安全设计的操作系统，全世界的安全专家盯了将近30年。Mythos 跑了1000次测试。

找到了一个藏了27年的漏洞。算力成本：2万美元。

但这还不是最狠的。

Firefox 浏览器有一层核心防御，Anthropic 之前最强的模型试了几百次，只成功了两次。Mythos 做到了72%成功率。

完整的 Firefox 有多层防护，72%成功率不等于能直接攻破你的浏览器。但从几百次才成功两次，跳到72%成功率，你品一下这个差距。

Claude Mythos 为什么不敢公开发布？下面是详细解释配图 2

Anthropic 内部一个搞了十几年安全的专家上个月在一场会议上说：我们现在手上的语言模型，可能是互联网发明以来安全领域最重大的事。

然后他补了一句：我不在乎你能做什么。请一点帮忙就好。

你听清楚了，这个人在求救。

AI 自己找到了人类花了27年都没发现的漏洞。成本2万美元。

你手机里的系统和浏览器，大概率也有这种藏了很久没人发现的漏洞。

但你可能会说，AI 越来越强这种事，我们已经听了好几年了，都是噱头。

但这次真的不一样！！！

为什么这次不一样

每隔几个月就有一个新模型刷新记录。

这次到底有什么不一样？

说一个很多人不知道的事。

过去要攻破一个系统，光懂安全是不够的。你还得深入理解那个系统的每一个角落。

我举个例子。电脑屏幕上要显示一个字母"A"，背后有一段代码负责告诉屏幕怎么把"A"画出来。听起来跟安全毫无关系，对吧？

但顶级黑客知道，那段代码里就藏着一个 bug，能让他控制你的整台电脑。

这就是过去找顶级漏洞的样子：你得同时精通安全，又精通你要攻破的那个系统的全部内部细节。

所以全世界能同时做到的人类，一只手数得过来。

但 Mythos 打破了这个限制。

有人打了个比方：如果 Mythos 是一个人，它的安全能力大概是8分，满分10。

世界上有安全10分的人，但 Mythos 在其他所有软件知识上，都是9分以上。

没有一个人类能同时做到这一点。

所以过去保护我们的，说白了就是一个字：少。能同时看透所有角落的人，太少了。

但现在 Mythos 出来了。这个门槛没了。

手机里的每一个 App，都可能被这种方式找到漏洞。

Anthropic 选择不发布，我们还担心什么？

这问题是，这种情况能多久？

运气只有一次

先看看他们做了什么。三件事，同时做的，每一件在 AI 行业都没有先例。

第一，不公开发布。

第二，在发布任何消息之前，先通知了美国政府。

第三，拉着 Apple、Google、Microsoft、Amazon、NVIDIA 等40多家公司，组建了一个叫 Project Glasswing 的联盟。专门用这个模型帮这些公司做安全审计。

Claude Mythos 为什么不敢公开发布？下面是详细解释配图 3

Anthropic 为此投入了1亿美元的使用额度。

Claude Mythos 为什么不敢公开发布？下面是详细解释配图 4

这是 AI 行业有史以来最负责的一次决策。

但请注意一件事：这个决策能成立，是因为 Anthropic 是第一个造出来的。

选择克制，是先行者的奢侈。

如果 Anthropic 能造出来，其他实验室迟早也会到达这个能力水平。下一个到达的团队，为了赢得AI大赛，不一定会做同样的选择。

那么我们的整个软件系统都会陷入危机。

Anthropic 的克制，靠的是运气。我们不可能每次都考靠运气。

把这篇发给一个你觉得应该知道这件事的人。

「怪诞手绘风」看完《瑞克和莫蒂》以及辛普森一家之后，想把日常照片也进行“丑化、恶搞”。于是乎... 结尾彩蛋，有胆你就试试这个版本关于作者 Punk ｜中科大 MBA｜被大厂优化，在 X 上重新进化｜HerName 首席设计师｜AI提示词｜分享小白能看懂、复制能上手的 AI / Web3 / 搞钱方法｜

TutorialsJun 13

AI Codex

普通人 Codex 入门全景图：第一次打开它，先跑通一条工作流

如果你第一次打开 Codex，最容易卡住的地方，通常不是安装。是你不知道它到底该被放在工作流里的哪个位置。我现在更愿意把 Codex 理解成一个 AI 工作台：它可以围绕一个本地项目读文件、改文件、跑命令、看网页、接插件、记规则、做检查，还能把重复流程沉淀成 Skill 或自动化任务。这篇不是某一个功能教程。它更像一张新手地图。看完以后，你不一定马上精通 Codex 的每个按钮，但至少会知道：第一次打开应该先建什么。一个任

TutorialsJun 12

AI Creator Tools

「重塑雕像的权利风」更像我对自己的评价：克制、秩序、先锋

这套黑白灰先锋海报，和之前偏“黑白杂志风”的方向不太一样。它不追求杂志封面的信息密度，也不靠栏目、编号、小字、排版标签制造设计感，而是更强调秩序、结构和视觉张力。核心是用黑白灰建立空间层次，用随机字体排版打破模板感，再用圆形、线条、矩形、网格、路径等几何母题组织画面。它看起来克制，但不呆板；极简，但不空洞；有先锋感，也有清晰的视觉系统。适合做 AI、设计、思想类主题封面，尤其适合那些想要“高级、冷静、有实验性”的内容。 Punk

TutorialsJun 11

AI Creator Tools

为什么AI有时厉害有时平庸

今天突然意识到一个事情。为什么有时候我们会觉得 AI 太好用了，AI 太厉害了，好像比自己强很多。但有时候又会觉得 AI 很蠢，没那么好用，也不太能解决自己的实际问题。我今天不想从技术或者大模型本身性能的角度聊这个事情，而是想从使用者的体感来说。有没有一种可能，当我们在了解一个自己并不熟悉的领域时，作为外行去问 AI，AI 给到的回答大概率足以让我们觉得满足。因为这个领域里，它能给出的平均水平，已经超过了我们的知识储备和认知。但当我

TutorialsJun 11

AI Creator Tools

做一张更像金融杂志的封面

许愿池王八的第二弹：Bloomberg风但不是华尔街金融风。不要交易大厅，不要金色K线，不要西装精英，不要握手，不要蓝紫科技光效，也不要那种知识付费财经课海报。我想要的是更简约、更锋利的商业杂志编辑风：一个大标题，一个强隐喻，一块高对比色，少量标签，再加一点点数据新闻感。信息不用多，但观点要清楚。画面不用复杂，但第一眼要有冲击。它适合做金融分析、投资框架、AI商业文章、X封面、公众号头图和PPT封面。关

TutorialsJun 10

AI Creator Tools

美人自有光，珠宝只添彩

过两天要给一家珠宝公司做 AI 视觉培训，所以这几天集中测试了四套珠宝类提示词。这四套分别对应不同使用场景：第一套是金饰展示图，适合做单品海报，重点是突出单品本身的形象。第二套是银色珠宝效果图，展示珠宝局部佩戴效果，适合钻石、白金、铂金、银饰。第三套是 AI 模特展示图，适合在没有真人拍摄素材时，快速生成统一风格的模特佩戴效果，用于新品预览、视觉测试和内容批量生产。 🌟🌟🌟 重头戏：第四套是真人智能穿戴图，

TutorialsJun 9

AI Creator Tools

让我们迷失吧，沉沦吧...

之前做 Adrian.Punk 作品集的时候，我用了很多弥散风视觉。我自己很喜欢这种感觉：模糊的色块、柔和的光晕、胶片颗粒、印刷噪点，再加一点杂志感排版，画面不复杂，但很有视觉冲击。后来发现，很多咖啡馆手卡、艺术展海报、独立杂志封面、设计工作室作品集里，也经常能看到类似风格。它可以生成不同方向的视觉：高饱和、低饱和、同色系、双色冲突、大留白、满版标题、杂志网格、艺术展海报、X封面、公众号封面都可以。我最想避免的是那种一眼模板

TutorialsJun 8

AI Digital Infrastructure

我开源了一个插件，把 X 文章发布效率提升了 10 倍

先说结论：你写一篇长文花 3 小时，发布它可能要花 15 分钟。而这个插件，把后面那 15 分钟变成了 5 秒 PS：全文将近 1600 字，建议你先收藏再慢慢阅读 😘 如果你在 X 上发过长文，你一定经历过那种"终于写完了，但是发布又要好久😂"的感觉。今天这个东西，就是来把那座山铲平的本文大纲： 📝 写完文章之后的那 15 分钟，才是真正的噩梦 🔧 我做了一个东西：一个 Chrome 扩展 + 一个本地脚本 📥 三步安装，

TutorialsJun 8

Claude Mythos 为什么不敢公开发布？下面是详细解释

强到他们自己不敢发布。连美国政府都提前通知了。

一封不该收到的邮件

为什么这次不一样

运气只有一次

You May Also Like

CATALOG

一封不该收到的邮件

为什么这次不一样

运气只有一次

You May Also Like

CATALOG

Related Posts