追上 Opus 4.7 和 GPT-5.5 之后,仗才刚开始

OpenAI 一周内连发 GPT-5.5 + GPT Image 2,Anthropic 上周刚推 Opus 4.7。模型分数只是入场券,Claude Code 和 Codex 这样的工作台才是真正的护城河——只卷模型,永远是别人房子的建材供应商。

这阵子看新模型发布,节奏比以前密多了。Kimi、GLM、Qwen、DeepSeek,一个接一个,benchmark 分数已经能逼到 Opus 4.6 附近。消息一出,评论区总有一句:“国产模型追上来了。”

但就在过去一周,另一头连发了三件事:

4 月 16 日,Anthropic 发布 Claude Opus 4.7,视觉理解更精细,长任务能自我验证
4 月 21 日,OpenAI 发布 GPT Image 2(ChatGPT Images 2.0),第一个把推理做进图像生成的模型——推理、联网、生图在同一个循环里跑
4 月 23 日,OpenAI 发布 GPT-5.5(代号 “Spud”),直接灌进 Codex,agentic coding 和 computer use 全面升级

国内模型好不容易逼到 4.6 的位置上,前面又跳了一大截。更要命的是:GPT Image 2 把推理捅进了图像生成,这已经不是同一个跑道上的追赶,而是某种意义上的弯道超车——它在定义一种新的能力形态。

真正该看的不是单点模型分数,而是——谁同时握着顶尖模型 + 顶尖工作台。今天世界上只有两家做到了:OpenAI(GPT-5.5 + GPT Image 2 + Codex)和 Anthropic(Opus 4.7 + Claude Code)。

你实际在用的是什么

先问一个扎心的问题——你最近一周,有多少次是打开模型 Web 界面,跟它对话,然后把答案贴回代码里?

不多。

真正在烧我时间的是 Claude Code 和 Codex:终端里跑,能读文件、能改文件、能 grep、能跑测试、能拉 subagent、能装 skill、能接 MCP、能用 hooks 拦截危险操作。它们不是”模型”,是以模型为引擎的工作台。

Codex 今年已经把 subagent、MCP、skill、web search、多环境支持全补齐了——过去这些是 Claude Code 专属的词汇,现在变成了两家都有的基础设施。这恰好说明:这些原语不是锦上添花,是工作台的必需品。连 OpenAI 都在按同一张蓝图扩产能。

所以当我们说”某家追上了 GPT-5.5”或”追上了 Opus 4.7”,准确的说法是——追上的是引擎,不是整辆车。

1+1>2 的地方在哪

为什么工作台的价值远高于”模型 API + 一个前端”?

因为模型和工具链互相放大,每一项配合都是非线性的:

模型 × 工具调用 = 能操作真实世界
模型 × 持久上下文 = 能跨会话积累项目知识
模型 × 权限/沙箱 = 敢放手让它自己跑
模型 × 子 agent + 监理 = 能自我审查、自我纠错
模型 × hooks = 偏好变成机制,不用每次口头重复

Claude Code 和 Codex 都凑齐了这五项,而且都是自家模型 + 自家壳一起训、一起调出来的。

GPT Image 2 又把第六项塞了进来——模型 × 图像生成循环。过去图像生成是”描述 → 出图”的一发命中,错了只能换 prompt 重来;现在推理、联网、生图被放进同一个 agent 循环,可以”看结果、找问题、改参数、再生成”。Codex 本身就是这种 agent 循环的容器——文本任务和图像任务终于在同一个工作台里合流了。

这就是 1+1>2 的真实来源——不是”模型好 + 壳好”,是模型和壳一起长大。

反转:只有模型 ≠ 只缺个壳

有一种很常见的错觉:“我的模型已经追上了,剩下的只要套个壳。”

错。

Claude Code 的 hooks 能精确拦截在特定工具、特定参数上,前提是 Anthropic 训模型时就知道这套 hooks 协议存在,并把遵守它的行为塞进了 post-training。Codex 能把 GPT-5.5 和 GPT Image 2 串进同一个推理循环,前提是这两个模型从训练开始就按一家人的接口去对齐。

你拿一个别家的模型套进 Claude Code 或 Codex 的形状,效果立刻掉一大截——不是因为模型分数低,是因为模型没和这个壳一起长大。

Cursor 聪明在这里:它没有自家模型,但靠工程硬把多家模型的行为对齐到一个工作流里。这很累、很贵,也很脆——每次底层模型版本一升,对齐都得重做一遍。不是所有公司都能撑这个成本。

所以生态不是”模型之外再做一个壳”,是模型和壳一起演化。两边都是你自己的,你才有机会定义下一代交互范式。

两强格局已经成型

不是不该追模型分数。GPT-5.5 要追,Opus 4.7 要追,GPT Image 2 的推理式生成这种新能力边界更要去研究。

错在以为追上就结束了。

追上的那天,你只是拿到了”可以开始做 Claude Code / Codex”的资格。真正的比赛——把模型打包成工作台这一仗——你还没下场。

而这一仗的对手不是某一个模型,是一整套生态:终端集成、IDE 插件、MCP 协议、skill 市场、企业部署工具、团队协作模式、用户习惯。每一项都比训一个 benchmark 榜首更花时间。

国内现在的局面很像 2015 年的手机市场。参数表追到顶配,然后发现消费者买的根本不是参数,是 iOS + App Store 那套东西。

而 2026 年这个比喻更残酷——手机市场至少是两强(iOS + Android),现在的 AI 工作台也已经是两强(Claude Code + Codex)。两家都是”顶尖模型 + 顶尖工作台”双轮驱动,路径上互为镜像。剩下所有玩家,哪怕模型再强,都还在争”第三家能不能挤进来”。

收束

模型是砖。Claude Code 和 Codex 是把砖砌成房子的那套图纸加施工队。

只卷砖,你最多是别人房子的建材供应商。

追上 Opus 4.7、追上 GPT-5.5,然后呢?

然后才是真正要做的事——做自己的 Claude Code、做自己的 Codex。不是插件、不是套壳,是从模型训练目标到工具协议到用户工作流,整条链都是自己的那种东西。

不卷这个,模型再追十次,也还是在别人的赛道上跑圈。