網易首頁 > 網易號 > 正文申請入駐

GPT-5.5 發布，詳細解讀

2026-04-24 04:14:02　來源: 賽博禪心

北京舉報

分享至

OpenAI Release

凌晨，OpenAI 發布 GPT-5.5，是 GPT-5 系列迄今最大更新

下面這個，是介紹視頻

https://openai.com/index/introducing-gpt-5-5/

本次核心變化：用更少的 token，干更難的活

在 Artificial Analysis 的 Coding Agent Index 上，GPT-5.5 達到了最高智能水平，成本是同級別競品的一半

GPT-5.5 這個模型，目前已向 ChatGPT 付費用戶開放

更高級別的 GPT-5.5 Pro，則向 Pro、Business、Enterprise 用戶開放

API 即將上線，價格大幅上漲，為 $5/$30 (每百萬Token)，比 5.4 翻了 3 倍

能力總覽

OpenAI 拿出了一張 9 項核心指標的對比表，橫向對比 GPT-5.5、GPT-5.4、GPT-5.5 Pro、GPT-5.4 Pro、Claude Opus 4.7 和 Gemini 3.1 Pro

核心 Benchmark 總覽

在 Artificial Analysis Intelligence Index（第三方，10 項 eval 加權平均）上，GPT-5.5 在同等輸出 token 量下智能得分最高，token 總消耗明顯低于其他模型

Terminal-Bench 2.0復雜命令行工作流：82.7%，vs GPT-5.4 的 75.1%，vs Claude Opus 4.7 的 69.4%

SWE-Bench Pro真實 GitHub issue 解決：58.6%，vs GPT-5.4 的 57.7%。Claude Opus 4.7 報了 64.3%，但 Anthropic 承認部分問題存在記憶化

Expert-SWE內部長周期編碼任務，中位人類完成時間 20 小時：73.1%，vs GPT-5.4 的 68.5%

在 Codex 里，GPT-5.5 可以接手從實現、重構到調試、測試的完整工程工作。上下文窗口 400K

知識工作

coding 之外，GPT-5.5 在日常電腦操作和知識工作上的提升同樣明顯

GDPval44 個職業知識工作測試，勝出或平手率 84.9%，vs GPT-5.4 的 83.0%，vs Claude Opus 4.7 的 80.3%

OSWorld-Verified模型獨立操作真實電腦環境：78.7%，vs GPT-5.4 的 75.0%

Tau2-bench Telecom復雜客服工作流，無 prompt 調優：98.0%，vs GPT-5.4 的 92.8%

GPT-5.5 Pro 也有提升。早期測試者覺得 GPT-5.5 Pro 在業務、法律、教育、數據科學方向上比 GPT-5.4 Pro 更全面、更準確

財務建模 demo，手動替換：https://player.vimeo.com/video/1185616826

OpenAI 內部用例

OpenAI 公司超過 85% 的員工每周都在用 Codex，覆蓋工程、財務、市場、公關、數據科學、產品管理

公關團隊分析了 6 個月的演講邀請數據，建了打分和風險框架，低風險請求自動處理，高風險請求交人審核

財務團隊審了 24,771 份 K-1 稅表，共 71,637 頁，比去年提前兩周完成

GTM 團隊自動生成周報，每周省 5-10 小時

科學研究

GeneBench 是 OpenAI 新推出的 eval，測試多階段遺傳學和定量生物學數據分析。這些任務通常對應科研專家幾天到幾周的工作量。GPT-5.5 得分 25.0%，GPT-5.4 是 19.0%，GPT-5.5 Pro 達到 33.2%

BixBench（真實生物信息學和數據分析 benchmark）：GPT-5.5 得分 80.5%，GPT-5.4 是 74.0%

Academic 評測數據

Ramsey 數新證明

GPT-5.5 的內部版本配合自定義工具鏈，發現了關于 Ramsey 數的一個新證明。Ramsey 數是組合數學的核心對象，研究結果稀少且技術難度高。這個證明后來在 Lean 中完成了形式化驗證

推理效率

GPT-5.5 更大更強，但實際延遲和 GPT-5.4 一樣

此前，OpenAI 用固定數量的靜態分區來平衡 GPU 上的計算負載

而在新版本中，Codex 分析了數周的生產流量數據，寫了自定義的啟發式分區算法。這一項改進讓 token 生成速度提升了超過 20%

模型幫忙優化了自己運行的基礎設施

網絡安全

GPT-5.5 的網絡安全能力被 OpenAI Preparedness Framework 評為 High（生物/化學能力同為 High）。沒有達到 Critical 級別

CyberGym81.8%，vs GPT-5.4 的 79.0%，vs Claude Opus 4.7 的 73.1%

CTF 挑戰任務內部擴展版：88.1%，vs GPT-5.4 的 83.7%

與此同時，GPT-5.5 也發布同時推出了一個新項目：生物安全漏洞賞金

規則是這樣，OpenAI 準備了 5 個生物安全問題，參與者需要找到一條「通用越獄 prompt」，在 Codex Desktop 的干凈對話里，一次性通過全部 5 個問題，且不觸發審核，就算越獄成功

參與地址在這：https://openai.com/index/gpt-5-5-bio-bug-bounty/

第一個成功的通用越獄，獎金 $25,000。部分突破可能獲得較小獎勵

申請窗口2026 年 4 月 23 日開放，6 月 22 日截止，滾動審核

測試窗口2026 年 4 月 28 日至 7 月 27 日

準入條件需要現有 ChatGPT 賬號，簽署 NDA

保密要求所有 prompt、輸出和發現均受保密協議覆蓋

面向有 AI 紅隊、安全或生物安全經驗的研究者

可用性與定價 ChatGPT

GPT-5.5 Thinking 面向 Plus、Pro、Business、Enterprise 用戶。GPT-5.5 Pro 面向 Pro、Business、Enterprise 用戶

Codex

GPT-5.5 面向 Plus、Pro、Business、Enterprise、Edu、Go 計劃，400K 上下文窗口。Fast 模式 token 生成速度提升 1.5 倍，成本 2.5 倍

API（即將上線）

gpt-5.5$5/1M input tokens，$30/1M output tokens，1M 上下文窗口

gpt-5.5-pro$30/1M input tokens，$180/1M output tokens

Batch / Flex標準價的一半

Priority標準價的 2.5 倍

GPT-5.5 單價比 GPT-5.4 高，但 token 效率也更高

OpenAI 表示在 Codex 里，GPT-5.5 對大多數用戶來說，實際消耗的 token 比 GPT-5.4 更少

完整 Benchmark 數據

以下是 OpenAI 公布的全部評測數據，按類別整理。所有 GPT 評測在 reasoning effort 設為 xhigh 的研究環境中進行

Coding 評測表

Professional 評測表

Computer Use and Vision 評測表

Tool Use 評測表

Academic 評測表

Cybersecurity 評測表

Long Context 評測表

Abstract Reasoning 評測表

短板

SWE-Bench Pro 上 Claude Opus 4.7 報了 64.3%（GPT-5.5 是 58.6%），但 Anthropic 承認部分問題存在記憶化

MCP Atlas 上 Claude Opus 4.7（79.1%）和 Gemini 3.1 Pro（78.2%）均高于 GPT-5.5（75.3%）

Humanity's Last Exam（帶工具）上 GPT-5.4 Pro 的 58.7% 高于 GPT-5.5 Pro 的 57.2%

長上下文 256K 以上，Claude Opus 4.7 在部分指標上仍有優勢

參考材料

→ 官方博客：openai.com/index/introducing-gpt-5-5/

→ System Card：deploymentsafety.openai.com/gpt-5-5

→ Bio Bug Bounty 申請：https://openai.com/index/gpt-5-5-bio-bug-bounty/

→ BixBench 論文：arxiv.org/abs/2503.00096

→ Artificial Analysis 方法論：artificialanalysis.ai/methodology/intelligence-benchmarking

→ API 定價：openai.com/api/pricing/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

GPT-5.5亮劍，三將辭營，DALL-E謝幕：OpenAI的“成人禮”

鈦媒體APP 2026-04-24 09:48:07
0 跟貼 0
凌晨，GPT-5.5收復失地！Anthropic緊急出手

智東西 2026-04-24 08:12:24
31 跟貼 31

剛剛，DeepSeek V4 雙版本正式上線！

機器之心Pro 2026-04-24 11:26:05
2 跟貼 2

00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
港大俞益洲團隊發布首篇「高效視頻世界模型」全面綜述

機器之心Pro 2026-04-24 11:40:34
0 跟貼 0

從零訓練一個原生大腦，自變量選擇入駐真實家庭“實習”

鈦媒體APP 2026-04-24 13:52:02
0 跟貼 0

DeepSeek V4來了：在喧嘩眾聲中，按自己的節奏講開源故事

DeepTech深科技 2026-04-24 13:06:46
0 跟貼 0
沖線第一卻喊不公？下坡比賽到底藏著什么規則？

暖陽喵 2026-04-23 10:34:54
3 跟貼 3

格力回應鋁線電機爭議：相關工程機已停產，海信稱靠多三兩銅多500元時代已終結

紅星資本局 2026-04-21 20:40:16
17349 跟貼 17349
致敬“DNA之母”，OpenAI推出首個生命科學AI模型GPT-Rosalind，加速藥物研發和基因組學研究

生物世界 2026-04-17 14:42:02
0 跟貼 0
今天起，GPT Image 2要把全體設計師送走了

新智元 2026-04-23 19:04:16
0 跟貼 0
賴清德要竄訪斯威士蘭失敗，飛行許可被取消！郭正亮的解讀

魔騎墨奇 2026-04-23 06:31:01
0 跟貼 0
當媽這件事，有人把賬本攤開了

時光慢郵啊 2026-04-24 08:23:36
0 跟貼 0
我在Word里用Claude替換了Copilot：一周后回不去了

賽博蘭博 2026-04-24 10:54:32
0 跟貼 0
零跑D19千里續航測試因“技術失誤”上熱搜，但是這就是直播測試的價值

新浪財經 2026-04-23 04:09:08
24 跟貼 24
全網最詳細！問界M6評測

老司機出品 2026-04-22 13:25:24
0 跟貼 0
盤點國外吃羊頭，約上你的吃貨朋友一起吃羊頭，長知識了

彗星看世界 2026-04-20 10:52:18
1 跟貼 1
為削減人口設生育規則，每個家庭僅能生育一次，天獄飛龍直面困境

料定歷史 2026-04-21 15:00:05
1 跟貼 1
囂張！以色列徹底放飛自我聯合國當眾耍橫，硬逼中國交代給錢明細

凡知 2026-04-24 12:20:55
0 跟貼 0
尚界Z7發布會上趴窩？官方回應：請大家不要過度解讀、傳播

識礁Farsight 2026-04-23 10:29:05
3398 跟貼 3398
狗子乖乖躺著讓雞治病

瀟湘晨報 2026-04-23 17:38:12
97 跟貼 97
超六成網紅鈦餐具涉嫌造假！老爸評測實測30款樣品，重金屬超標隱患突出

極目新聞 2026-04-23 18:36:36
3 跟貼 3
一雙225美元的跑鞋，憑什么讓人跑完220英里還上癮？

像素與芯片 2026-04-24 10:21:15
2 跟貼 2
美國指責中國向三個非洲國家施壓，取消賴清德的飛行許可，中方回應

北京青年報 2026-04-23 15:20:42
13 跟貼 13
窗簾不拖地小妙招，一個袋子就搞定，刷視頻學到新知識！

鴨嘴愛搞笑 2026-04-24 11:31:04
1 跟貼 1
中介稱"杭州600萬房子355萬急出" 有人看房被"丟路邊"

錢江晚報 2026-04-23 14:45:39
1539 跟貼 1539
視覺GPT時刻來了！DeepMind用Vision Banana證明「生成即理解」

機器之心Pro 2026-04-24 11:36:18
0 跟貼 0
90%女生不知道這個是什么，大白大膽給出演示，漲知識了

劉氏笑場 2026-04-22 08:55:34
2 跟貼 2
半掛模型玩具車買菜，要是超重了怎么辦，雷軍都不敢這么設計！

宇宙搞笑生活 2026-04-23 14:10:00
4 跟貼 4
不但超速還逆行，這種彎合格騎手都鳴兩下喇叭，黃泉路上漲知識了

王蕓愛搞笑 2026-04-23 11:16:45
1 跟貼 1
潛伏整整十年！襲擊前一刻，美制設備集體反水，給中國敲響了警鐘

人間無味啊 2026-04-24 12:49:26
1 跟貼 1
深圳水官高速4月26日起停止收費

新快報新聞 2026-04-24 08:16:04
61 跟貼 61
“還債騎手”被強制下線240次：“開始我很反感過勞提醒，影響賺錢”

澎湃新聞 2026-04-23 15:04:11
272 跟貼 272
修車鋪正在變成數據中心

字節漫游指南 2026-04-24 10:03:13
0 跟貼 0
HiBob評測：員工體驗優先的HR工具，值不值？

字節漫游指南 2026-04-24 09:59:22
0 跟貼 0
刷屏！DeepSeek V4成本暴降73%，梁文鋒聯手華為寒武紀，源神歸位全體起立

智東西 2026-04-24 13:08:45
0 跟貼 0
“窩囊版”蹦極發生意外，景區最新通報

南方都市報 2026-04-23 20:23:51
127 跟貼 127
內蒙古一老板開1.6萬月薪招人放3000只羊，包吃住，有Wi-Fi，有專人送物資，全年無休，回應：更適合夫妻檔，一望無際的大草原常年見不到人

瀟湘晨報 2026-04-23 22:14:14
1159 跟貼 1159
為什么死刑犯執行槍決時，現場有一輛救護車？漲知識了

爆笑趣世界 2026-04-24 11:04:13
1 跟貼 1
找到了！伊朗真正的內鬼，根本不是人！中方也要小心

鐵錘侃侃而談 2026-04-24 13:01:56
0 跟貼 0

賽博禪心

拜AI古佛，修賽博禪心

404文章數 50關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

親子

教育

旅游

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

GPT-5.5 發布，詳細解讀

剛剛，DeepSeek-V4 預覽版發布 百萬上下文

華誼兄弟被申請破產：曾坐擁百位明星 如今還不起千萬

華誼兄弟被申請破產：曾坐擁百位明星 如今還不起千萬

里程碑之戰拖后腿，哈登18分8失誤

王思聰被綠！戀愛期間女友被金主包養

19家企業要"鋁代銅"，格力偏不

全景iDrive 續航近800km 新款寶馬7系/i7亮相

態度原創

16幅 佐恩高清油畫 | 瑞典著名畫家

四維就發現孩子大拇指有問題，家長四處求醫終于“激活”拇指

告訴孩子：千萬不要被4種朋友借運，后果比早戀可怕100倍

“經典IP+特色文化”擦亮文旅金字招牌 特色品牌旅游專列圈粉國內外游客

剛剛，DeepSeek-V4 預覽版發布百萬上下文

華誼兄弟被申請破產：曾坐擁百位明星如今還不起千萬

華誼兄弟被申請破產：曾坐擁百位明星如今還不起千萬

16幅佐恩高清油畫 | 瑞典著名畫家

“經典IP+特色文化”擦亮文旅金字招牌特色品牌旅游專列圈粉國內外游客