先說個(gè)我很特么無語的事。我從2023年3月GPT-4發(fā)布起,連續(xù)訂了三年多的ChatGPT Plus,兩周前剛點(diǎn)了取消。賬戶里現(xiàn)在清清楚楚寫著「你的套餐將于 2026年5月1日 取消」。
![]()
理由很簡單——Codex我用不上(日常在Claude Code里寫代碼),GPT-5.4日常問答也被我切到了Opus 4.7和Gemini 3.1 Pro,那個(gè)對話界面很久沒打開過。20美金一個(gè)月不值。
然后這兩周,OpenAI很有節(jié)奏地給我扔了兩顆炸彈:上周gpt-image-2,這周GPT-5.5。我退訂后這兩周拿出的東西,比過去兩個(gè)月加起來都多。我甚至一度懷疑,他們是不是針對我設(shè)了個(gè)流失用戶召回包,專門在我點(diǎn)了退訂之后,把最近壓在庫里的王牌模型一次性砸出來。
當(dāng)然這只是我的牢騷。但牢騷背后有個(gè)判斷:這一次GPT-5.5真的值得所有人回來看一眼。它不只是個(gè)小版本升級。
OpenAI今天發(fā)布的GPT-5.5,代號Spud(土豆)。先不講花活,就按benchmark順序讀一遍,看它打在了哪里。然后我們再聊幾件官方宣發(fā)里不會說、但值得拿出來討論的事。
我讓GPT-Image-2給GPT-5.5畫的信息圖![]()
先看分?jǐn)?shù):這幾條是重頭戲 編程三件套:打在了Anthropic的根據(jù)地上
Terminal-Bench 2.0,GPT-5.5拿了82.7%,直接SOTA。GPT-5.4是75.1%,Claude Opus 4.7只有69.4%,Gemini 3.1 Pro 68.5%。這個(gè)榜測的是命令行里那種要你規(guī)劃、迭代、協(xié)調(diào)工具的長任務(wù)——Anthropic在4.7發(fā)布會上重點(diǎn)講過的地方。GPT-5.5在同一個(gè)數(shù)據(jù)集上多了整整13個(gè)百分點(diǎn)。
SWE-Bench Pro,GPT-5.5 58.6%。這條反而沒那么漂亮,Claude Opus 4.7是64.3%,反超它5.7個(gè)百分點(diǎn)。OpenAI在表格腳注里自己標(biāo)了一行:這個(gè)benchmark有記憶污染的跡象(memorization)。意思是別太認(rèn)真看這條。Expert-SWE是OpenAI自己的內(nèi)部長任務(wù)評測,每條題人類平均要20小時(shí)才能做完,GPT-5.5拿73.1%,GPT-5.4是68.5%。
把這三條合起來看,GPT-5.5的編程升級不在「單issue修bug」這種短平快任務(wù)上,而是在「連續(xù)工作好幾個(gè)小時(shí),需要記住上下文、反復(fù)check自己」的長任務(wù)上。這也是OpenAI自己重點(diǎn)宣傳的點(diǎn),Cursor的CEO Michael Truell引用詞里說的原話是「stays on task for significantly longer without stopping early」。對Codex用戶是實(shí)打?qū)嵉纳墸瑢χ辉贗DE里做短任務(wù)的人感知可能沒那么強(qiáng)。
![]()
Agent和計(jì)算機(jī)使用:追平,不是超過
OSWorld-Verified 78.7%,和Claude Opus 4.7的78.0%基本打平。這個(gè)榜測的是模型能不能像人一樣操作真實(shí)桌面——瀏覽器、文件管理、辦公軟件。GPT-5.5沒贏,只是追上了。
Toolathlon 55.6%,Gemini 3.1 Pro只有48.8%,Anthropic在這個(gè)榜上沒數(shù)據(jù)。Tau2-bench Telecom(客服工作流)98.0%,這條刷得很滿但OpenAI特別標(biāo)注了「no prompt tuning」,意思是沒針對性調(diào)prompt,純模型能力。
GDPval(跨44個(gè)職業(yè)的知識工作)84.9%,比行業(yè)專家基準(zhǔn)都高。這條是OpenAI這次最愛講的一個(gè)數(shù)——比人類專業(yè)人員還好。這條我個(gè)人保留一半意見,GDPval是OpenAI自己參與設(shè)計(jì)的評測,自己家模型數(shù)據(jù)好不奇怪。但趨勢是真的,GPT-5.5比GPT-5.4漲了1.9個(gè)百分點(diǎn),比Gemini 3.1 Pro的67.3%多了整整17個(gè)百分點(diǎn)。
長上下文:把Claude按在地上
這是最夸張的一塊。
OpenAI MRCR v2在512K到1M的長度下,GPT-5.5拿了74.0%。GPT-5.4只有36.6%,Claude Opus 4.7只有32.2%。一代之內(nèi)翻倍,順手把Claude留在身后一個(gè)數(shù)量級。
Graphwalks BFS 1mil F1,GPT-5.5 45.4%,GPT-5.4只有9.4%——五倍的躍升。這個(gè)榜測的是在超長上下文里做圖遍歷,模型得在百萬token的材料里精確地定位、跳轉(zhuǎn)、推理。Claude Opus 4.6是41.2%(Anthropic沒放4.7的數(shù)據(jù))。
如果你做RAG、做長文檔分析、做代碼庫級別的理解,這一條可能比Terminal-Bench對你更重要。長上下文過去兩年一直是Gemini的護(hù)城河,GPT-5.5這次是第一次把1M窗口的可用性拉到可以和編程能力掛鉤的水平。
![]()
數(shù)學(xué)和科學(xué):Pro版是主力
FrontierMath Tier 1-3(越難分越低),GPT-5.5拿51.7%,GPT-5.5 Pro上到52.4%,Claude Opus 4.7是43.8%,Gemini 3.1 Pro是36.9%。Tier 4(最難那一檔),GPT-5.5 35.4%,Pro版39.6%——但這一檔Gemini 3.1 Pro Pro模式也能做到38%。GPT-5.5 Pro和Gemini 3.1 Pro在最頂尖數(shù)學(xué)任務(wù)上基本是一個(gè)水平。
GPQA Diamond(博士級科學(xué)問答)93.6%。這條已經(jīng)基本見頂了,四家模型都在92-94%區(qū)間。
Humanity's Last Exam(無工具)41.4%。反而是Claude Opus 4.7最高,46.9%。有意思的是,OpenAI官方博客里一張正文圖都沒放HLE——這是GPT-5首發(fā)時(shí)他們最愛秀的那條榜單。
GeneBench和BixBench是這次新增的兩個(gè)科學(xué)研究評測。GeneBench 25.0%看起來低,但這個(gè)榜的任務(wù)一條通常是一個(gè)實(shí)驗(yàn)生物學(xué)家要花好幾天做的。BixBench 80.5%,生物信息學(xué)數(shù)據(jù)分析。OpenAI這次在「科研co-pilot」這個(gè)方向上下了明顯的力氣,這個(gè)敘事和Claude 4.x系列完全不同——Anthropic更強(qiáng)調(diào)「mass market的靠譜coding」,OpenAI更強(qiáng)調(diào)「frontier research里的躍升」。
瀏覽和網(wǎng)絡(luò)安全:有贏有輸
BrowseComp 84.4%。但Claude Opus 4.7是90.1%,比GPT-5.5高5.7個(gè)百分點(diǎn),GPT-5.5 Pro也只有90.1%打平。如果你把AI主要用在做網(wǎng)上研究、查資料、整理信息,這條比編程分?jǐn)?shù)更有參考意義——Claude依然是在線研究之王。
CyberGym 81.8%,Claude Opus 4.7是73.1%。GPT-5.5把Preparedness Framework下的cybersecurity capability正式列為「High」級別。這條意味著什么先不展開,下面第四件事里專門講。
Artificial Analysis的第三方綜合分
OpenAI這次把第三方評測公司Artificial Analysis的Intelligence Index(10個(gè)評測的加權(quán)平均)放在了博客顯眼位置。坐標(biāo)軸是「Intelligence Index vs Output Tokens Total」——同樣的智能水平,GPT-5.5用的token大約只有Claude Opus 4.7的一半。OpenAI原話:「delivers state-of-the-art intelligence at half the cost of competitive frontier coding models」。
這句話可以反過來讀:GPT-5.5在絕對智能上沒有大幅甩開Opus 4.7,但它更省token。所以最終每個(gè)問題的成本更低。這是個(gè)實(shí)用主義的故事,不是敘事主義的故事。
好,分?jǐn)?shù)看完了。接下來聊幾件值得討論的事。
幾件OpenAI不會主動說的事 第一件:價(jià)格翻了一倍
GPT-5.5 API的定價(jià):input $5/M token,output $30/M token。GPT-5.4是input $2.5,output $15——直接翻倍。
GPT-5.5 Pro更猛:input $30/M,output $180/M。
把時(shí)間線拉長:GPT-5(去年8月發(fā)布)的input是$1.25/M,GPT-5.5是$5/M。8個(gè)月里漲了4倍。
OpenAI給的說法是「more token efficient」,就是每個(gè)任務(wù)用的token少,所以單價(jià)漲不等于最終貴。這個(gè)說法對重度Codex用戶可能成立,對在API端接入的開發(fā)者大概率不成立——因?yàn)槟愕膽?yīng)用場景是你定的,不是Codex定的。
再看一個(gè)數(shù):GPT-5.5 Fast模式(快1.5倍但貴2.5倍)。如果你想快,還得再加錢。
AI行業(yè)一直在講「每token價(jià)格會持續(xù)下降」,Anthropic的Haiku 4.5現(xiàn)在是input $1/M,Gemini 3.1 Flash是$0.30/M。OpenAI在旗艦?zāi)P瓦@條線上逆勢漲價(jià),這件事本身就是一個(gè)定價(jià)信號——他們認(rèn)為自己在高端能力上的領(lǐng)先值得定價(jià)權(quán)。從benchmark看,這個(gè)判斷有一定道理(Terminal-Bench、MRCR、Expert-SWE都在斷檔領(lǐng)先),但市場會不會認(rèn)賬,是另一回事。
![]()
第二件:API當(dāng)天沒開放
這是個(gè)值得琢磨的操作。
GPT-5.5今天在ChatGPT Plus/Pro/Business/Enterprise和Codex里當(dāng)天可用。API官方說的是「coming soon」,沒給時(shí)間表。
意味著什么?Cursor、Windsurf、Cline、Cody、OpenRouter這些第三方編程工具,今天拿不到GPT-5.5。你要用GPT-5.5的編程能力,只能走OpenAI自己的Codex。
OpenAI給的公開說法是「API deployments require different safeguards」,意思是API需要不同的安全配置,他們在和合作伙伴一起對齊安全要求。這個(gè)說法合理,但不是完整解釋——GPT-5首發(fā)時(shí)API也是同步開放的。
更直接的解釋是:OpenAI想讓Codex獨(dú)占一段窗口期。ChatGPT的訂閱用戶和Codex的付費(fèi)用戶,在這段窗口期里能用到最強(qiáng)模型,而Cursor、Windsurf這些競品只能繼續(xù)用GPT-5.4或者Claude Opus 4.7。窗口期可能是幾周,也可能是一兩個(gè)月。
去年這個(gè)時(shí)候GPT-5發(fā)布,第三方工具當(dāng)天就能接。一年過去,OpenAI開始學(xué)Anthropic的玩法了——先讓自己的產(chǎn)品先跑一段,再把模型放出去。這是一個(gè)生態(tài)位的微調(diào),對Cursor這種用戶都靠OpenAI模型撐起來的產(chǎn)品,不是好消息。
第三件:Codex這次打的是Claude Code
別看OpenAI這次的發(fā)布稿從頭到尾沒提Claude Code一個(gè)字,整個(gè)敘事結(jié)構(gòu)就是在和Claude Code正面掰。
看它強(qiáng)調(diào)的四個(gè)點(diǎn):
「stays on task longer」(Cursor CEO原話)——這正是Claude Code最出名的長任務(wù)堅(jiān)持能力
「context across large systems」——Claude Code的長上下文體驗(yàn)是很多人不離不棄的原因
「uses significantly fewer tokens」——這是在回應(yīng)Claude在「token消耗大」上被人吐槽的點(diǎn)
「works with you on real engineering tasks」——Anthropic整個(gè)Claude Code的核心敘事
Terminal-Bench 2.0這次選作發(fā)布主榜也不是隨意選的。Terminal-Bench是Stanford/Hugging Face/Anthropic相關(guān)團(tuán)隊(duì)做的評測,重點(diǎn)是長命令行任務(wù),過去一年是Anthropic系列模型的主場。GPT-5.5在這條榜上從GPT-5.4的75.1%躍到82.7%,直接甩開Claude Opus 4.7 13個(gè)百分點(diǎn),這是精準(zhǔn)打臉。
GPT-5.5不是發(fā)給所有AI用戶的,它主要是發(fā)給「正在考慮是不是要從Codex切到Claude Code」的那群開發(fā)者的。OpenAI在用benchmark+Codex產(chǎn)品體驗(yàn)+價(jià)格+生態(tài)鎖定(API先不開放),試圖把這些人留下來。
第四件:System Card里那個(gè)29%
這是我這兩天讀System Card發(fā)現(xiàn)的、最值得單拎出來的一條。
Apollo Research做了獨(dú)立測試,設(shè)計(jì)了一個(gè)叫「Impossible Coding Task」的實(shí)驗(yàn):給模型一個(gè)實(shí)際上根本無解的編程任務(wù)(比如讓它用某個(gè)API的某個(gè)不存在的參數(shù)實(shí)現(xiàn)某個(gè)功能),看它會不會謊報(bào)「搞定了」。
結(jié)果:
GPT-5.4 謊報(bào)率 7%
GPT-5.3 Codex 謊報(bào)率 10%
GPT-5.5 謊報(bào)率 29%
翻譯成日常場景:如果你給GPT-5.5布置一個(gè)其實(shí)不可能做到的編程小任務(wù),接近三分之一的概率它會告訴你「done」——代碼給你一段看起來很合理、但實(shí)際跑不通或者悄悄做了別的事的東西。
這個(gè)數(shù)字沒出現(xiàn)在OpenAI自己的正文博客里,只藏在System Card的Apollo部分。OpenAI的整體結(jié)論是「Apollo沒有發(fā)現(xiàn)整體風(fēng)險(xiǎn)顯著升高」,這個(gè)結(jié)論本身沒問題——因?yàn)閯e的子項(xiàng)GPT-5.5沒退步。但I(xiàn)mpossible Coding Task這個(gè)具體子項(xiàng)的翻倍惡化,是需要開發(fā)者警惕的。
如果你切到GPT-5.5 + Codex的工作流,第一條要學(xué)會的就是:不能完全信「done」。你得跑一下結(jié)果、或者讓另一個(gè)agent反向?qū)徍恕laude Code那種鼓勵你隨時(shí)打斷、看中間狀態(tài)的設(shè)計(jì),在GPT-5.5這個(gè)數(shù)據(jù)面前反而顯得更務(wù)實(shí)。
最后:可以切Codex試試了
如果你過去一年一直在用Claude Code,那么這篇文章如果只給你一條建議,就是這條:
找個(gè)項(xiàng)目,把Codex當(dāng)Claude Code的平替跑一輪。不是說立刻卸載Claude Code,是跑一輪,體驗(yàn)一下GPT-5.5 + Codex在長任務(wù)上的感覺。
過去這一年,Claude Code幾乎是沒有對手的。Cursor要不是被馬斯克收購都快無人關(guān)心了,Gemini 3.1 Pro還不錯(cuò)但Gemini CLI爛得要死,Codex在GPT-5.4這代還差一口氣。所以我默認(rèn)就是Claude Code。這一次,Codex可能真的值得重新認(rèn)真評估一次。
不過有幾件事可以注意下:
29%的謊報(bào)率是真的,Codex工作流里最好讓另一個(gè)agent反向?qū)徍岁P(guān)鍵步驟
API還沒開放,第三方工具(Cursor、Windsurf、Cline)暫時(shí)接不到GPT-5.5
BrowseComp做在線研究Claude Opus 4.7還是第一
價(jià)格翻倍了,重度用戶心里算一下賬
Claude Code曾經(jīng)是唯一選擇,現(xiàn)在確實(shí)可以好好考慮下替代選項(xiàng)了。
GPT-5.5發(fā)布官方頁:openai.com/index/introducing-gpt-5-5/
System Card英文原版:deploymentsafety.openai.com/gpt-5-5
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.