GPT-5.5 发布：这次 OpenAI 真的把桌子掀了一下

Banner

GPT-5.5 发布了。

我看完 Every 团队连续 3 周的实测，又把文章和视频都过了一遍，最强烈的感受是：

这不是一次普通升级。 这是 OpenAI 久违地做出了一款，让人很想立刻切过去当主力的模型。

过去一年，很多人已经默认形成了分工：

写作找 Claude。
复杂规划找 Claude。
长任务和 coding 也更偏向 Claude。
OpenAI 更像一个“通用入口”，好用，但很少让人产生那种“我想长期住进去”的感觉。

GPT-5.5 这次，把这种印象狠狠干扰了一下。

一句话结论

如果只用一句话概括 GPT-5.5，我会这么说：

它终于同时具备了三件很稀缺的事：够强、够顺手、够像一个真的能长期协作的工作伙伴。

强模型很多。
顺手的模型也有。
但“又强又顺手”，还覆盖 coding、写作、知识工作，这种组合其实非常少见。

Every 给它的判断：

它是一个 coding powerhouse，同时又 fast、friendly、easy to talk to。

翻译成人话就是：

它不只是厉害。
它还让人愿意一直用。

编程能力，这次真的有“坐直身子”的感觉

Every 自研了一个 Senior Engineer Benchmark，用来测模型到底能不能像一个高级工程师一样处理复杂代码任务。

结果很扎眼：

GPT-5.5：**62 分
Opus 4.7：33 分
人类高级工程师参考区间：80-90 分

先说清楚，benchmark 从来都不该神化。
但这个差距已经足够说明，这不是一次小修小补。

更重要的是，GPT-5.5 这次强的点，不只是“代码写得更对”。

它强在一种很少见的东西：

概念清晰度。

也就是它更能抓住一个系统到底是怎么运转的，哪里真的坏了，改动应该落在哪里，哪些旧代码该留，哪些旧代码该删，什么时候该继续修，什么时候该直接重构。

这点特别重要。

因为很多 AI coding 项目，真正痛苦的阶段都不是从 0 到 1。
而是从“能跑”走到“还能继续维护”。

前面做 demo 很爽。
后面越改越乱。
功能补得越来越多，代码却越来越不敢动。
修一个 bug，顺手再炸出三个 bug。

这是现在大量 vibe coding 项目的真实处境。

GPT-5.5 最让人兴奋的地方，就是它开始有能力处理这种真实烂摊子了。

它更像一个“会判断”的工程师

Every 团队里，Naveen Naidu 在测试期间用了超过 9 亿 token，持续拿 GPT-5.5 去推 Monologue 的生产功能。

这个数字很夸张。
但更夸张的是他给出的体感：

GPT-5.5 真的能理解一个系统。

这句话的分量，比任何单次跑分都重。

因为真正有价值的模型，不只是会补全代码。
它要能理解：

这个系统为什么变成现在这样
问题是表层的还是结构性的
修这一处会不会牵动别的模块
这块到底该 patch，还是该推倒重来

当一个模型开始具备这种能力，它就不再只是“代码生成器”。

它开始有一点“高级工程师味道”了。

写作能力，OpenAI 终于有点回来了

这部分其实让我很意外。

Every 的写作者 Katie Parrott 提到，她大概已经一年没有把 OpenAI 的模型放进正式写作工作流了。
测完 GPT-5.5，她切回来了。

它终于变得更自然了。

结构清晰
推进更顺
模仿风格更有分寸
不会一开口就写出那种“过于标准、过于正确、过于像 AI”的文本。

这个变化，对内容创作者非常关键。

很多模型写作的问题，从来都不是“不会写”。
而是写得太整齐，太用力，太像机器在拼一个完美答案。

GPT-5.5 如果真能把这种“AI 味”压下去，它会非常适合进入内容工作流：

热点整理
长文初稿
风格改写
多平台分发
历史内容再利用
知识库内容再加工

这对长期做内容的人，意义很大。

它没有明显变慢

这件事其实比很多人想象中更重要。

因为很多“更强”的模型，代价都是更慢。
更慢意味着什么？

意味着更不适合高频工作。
意味着来回沟通的成本变高。
意味着它可能适合关键时刻，不适合整天挂着用。

GPT-5.5 这次最危险的地方就在这里：

它很强，但又没有强到让人用得很累。

OpenAI 官方也强调，它在多项真实任务 benchmark 上表现很猛，同时保持了更高的效率。
Every 的体感也是：它快，而且足够快，快到可以进入真正的日常工作。

这种模型，才有资格争“主力位”。

Agentic knowledge work，这次开始有“能交出去”的味道了

Every 对 GPT-5.5 的另一个评价，中文圈应该挺喜欢的：

这是他们第一次感觉，一个 OpenAI 模型真的能扛起很多 agentic knowledge work。

代码调试
在线研究
数据分析
文档整理
多步骤任务推进

以前的 agent，很多时候更像“会动的 demo”。
看着很惊艳，用起来要盯很久。
中间容易跑偏，忘目标，漏关键约束，或者越做越散。

GPT-5.5 这次给人的感觉是：

它更能记住自己到底要完成什么。

这点对于一人公司、独立开发者、内容创作者，价值很高。

但它还没有赢下所有地方

越是这种看起来很强的发布，越要把弱点写清楚。

Every 的结论也很坦诚。

GPT-5.5 还输在几个地方：

1. 规划质量仍然不如 Opus 4.7 GPT-5.5 的 plan 更清楚、更易读，但 Opus 的细节、洞察和判断还是更锐。

2. 前端和全栈产品思维还是 Opus 更稳 尤其涉及设计感、用户路径、产品结构时，Opus 依然很有优势。

3. 对模糊需求的“读空气能力”还没完全赢 如果任务很虚，只给一句 vague prompt，Opus 还是更会补全你没说出口的东西。

4. 写 Ruby 不是它的强项 这点对 Rails 用户要单独留意。

也就是说，GPT-5.5 非常强，但还没强到“一统天下”。

最有意思的结论，可能是这句

Every 测出来一个特别值得记下来的现象：

GPT-5.5 在执行 Opus 4.7 制定的计划时，表现反而是最好的。

它说明接下来很多人的最佳实践，可能不是“二选一”。

Opus 负责想清楚。 GPT-5.5 负责跑起来。

这很像真实团队协作。

一个人战略感更强。
一个人执行效率更高。
组合起来，反而比单打独斗更猛。

我觉得这才是这次 GPT-5.5 发布后，最值得普通用户抄走的用法。

OpenAI 重新开始认真争夺默认工作入口了。

以前大家会习惯把不同任务拆给不同模型。
写作一个，coding 一个，计划一个，研究一个。

GPT-5.5 开始有机会把这些工作重新收回来，放进一个更统一的入口里。

这件事如果成立，影响会很大。

因为大家最终留下来的，不一定是最强的模型。
往往是那个最容易进入日常工作的模型。

GPT-5.5 发布：这次 OpenAI 真的把桌子掀了一下

GPT-5.5 发布：这次 OpenAI 真的把桌子掀了一下

一句话结论

编程能力，这次真的有“坐直身子”的感觉

它更像一个“会判断”的工程师

写作能力，OpenAI 终于有点回来了

它没有明显变慢

Agentic knowledge work，这次开始有“能交出去”的味道了

但它还没有赢下所有地方

最有意思的结论，可能是这句

You May Also Like

CATALOG

GPT-5.5 发布：这次 OpenAI 真的把桌子掀了一下

一句话结论

编程能力，这次真的有“坐直身子”的感觉

它更像一个“会判断”的工程师

写作能力，OpenAI 终于有点回来了

它没有明显变慢

Agentic knowledge work，这次开始有“能交出去”的味道了

但它还没有赢下所有地方

最有意思的结论，可能是这句

You May Also Like

CATALOG

Related Posts