OpenAI Release
凌晨,OpenAI 發布 GPT-5.5,是 GPT-5 系列迄今最大更新
![]()
下面這個,是介紹視頻
https://openai.com/index/introducing-gpt-5-5/
本次核心變化:用更少的 token,干更難的活
在 Artificial Analysis 的 Coding Agent Index 上,GPT-5.5 達到了最高智能水平,成本是同級別競品的一半
![]()
GPT-5.5 這個模型,目前已向 ChatGPT 付費用戶開放
更高級別的 GPT-5.5 Pro,則向 Pro、Business、Enterprise 用戶開放
API 即將上線,價格大幅上漲,為 $5/$30 (每百萬Token),比 5.4 翻了 3 倍
![]()
能力總覽
OpenAI 拿出了一張 9 項核心指標的對比表,橫向對比 GPT-5.5、GPT-5.4、GPT-5.5 Pro、GPT-5.4 Pro、Claude Opus 4.7 和 Gemini 3.1 Pro
![]()
核心 Benchmark 總覽
在 Artificial Analysis Intelligence Index(第三方,10 項 eval 加權平均)上,GPT-5.5 在同等輸出 token 量下智能得分最高,token 總消耗明顯低于其他模型
![]()
Terminal-Bench 2.0復雜命令行工作流:82.7%,vs GPT-5.4 的 75.1%,vs Claude Opus 4.7 的 69.4%
SWE-Bench Pro真實 GitHub issue 解決:58.6%,vs GPT-5.4 的 57.7%。Claude Opus 4.7 報了 64.3%,但 Anthropic 承認部分問題存在記憶化
Expert-SWE內部長周期編碼任務,中位人類完成時間 20 小時:73.1%,vs GPT-5.4 的 68.5%
![]()
在 Codex 里,GPT-5.5 可以接手從實現、重構到調試、測試的完整工程工作。上下文窗口 400K
知識工作
coding 之外,GPT-5.5 在日常電腦操作和知識工作上的提升同樣明顯
GDPval44 個職業知識工作測試,勝出或平手率 84.9%,vs GPT-5.4 的 83.0%,vs Claude Opus 4.7 的 80.3%
OSWorld-Verified模型獨立操作真實電腦環境:78.7%,vs GPT-5.4 的 75.0%
Tau2-bench Telecom復雜客服工作流,無 prompt 調優:98.0%,vs GPT-5.4 的 92.8%
GPT-5.5 Pro 也有提升。早期測試者覺得 GPT-5.5 Pro 在業務、法律、教育、數據科學方向上比 GPT-5.4 Pro 更全面、更準確
![]()
財務建模 demo,手動替換:https://player.vimeo.com/video/1185616826
OpenAI 內部用例
OpenAI 公司超過 85% 的員工每周都在用 Codex,覆蓋工程、財務、市場、公關、數據科學、產品管理
公關團隊分析了 6 個月的演講邀請數據,建了打分和風險框架,低風險請求自動處理,高風險請求交人審核
財務團隊審了 24,771 份 K-1 稅表,共 71,637 頁,比去年提前兩周完成
GTM 團隊自動生成周報,每周省 5-10 小時
科學研究
GeneBench 是 OpenAI 新推出的 eval,測試多階段遺傳學和定量生物學數據分析。這些任務通常對應科研專家幾天到幾周的工作量。GPT-5.5 得分 25.0%,GPT-5.4 是 19.0%,GPT-5.5 Pro 達到 33.2%
BixBench(真實生物信息學和數據分析 benchmark):GPT-5.5 得分 80.5%,GPT-5.4 是 74.0%
![]()
Academic 評測數據
Ramsey 數新證明
GPT-5.5 的內部版本配合自定義工具鏈,發現了關于 Ramsey 數的一個新證明。Ramsey 數是組合數學的核心對象,研究結果稀少且技術難度高。這個證明后來在 Lean 中完成了形式化驗證
![]()
推理效率
GPT-5.5 更大更強,但實際延遲和 GPT-5.4 一樣
此前,OpenAI 用固定數量的靜態分區來平衡 GPU 上的計算負載
而在新版本中,Codex 分析了數周的生產流量數據,寫了自定義的啟發式分區算法。這一項改進讓 token 生成速度提升了超過 20%
![]()
模型幫忙優化了自己運行的基礎設施
網絡安全
GPT-5.5 的網絡安全能力被 OpenAI Preparedness Framework 評為 High(生物/化學能力同為 High)。沒有達到 Critical 級別
CyberGym81.8%,vs GPT-5.4 的 79.0%,vs Claude Opus 4.7 的 73.1%
CTF 挑戰任務內部擴展版:88.1%,vs GPT-5.4 的 83.7%
與此同時,GPT-5.5 也發布同時推出了一個新項目:生物安全漏洞賞金
![]()
規則是這樣,OpenAI 準備了 5 個生物安全問題,參與者需要找到一條「通用越獄 prompt」,在 Codex Desktop 的干凈對話里,一次性通過全部 5 個問題,且不觸發審核,就算越獄成功
參與地址在這:https://openai.com/index/gpt-5-5-bio-bug-bounty/
第一個成功的通用越獄,獎金 $25,000。部分突破可能獲得較小獎勵
申請窗口2026 年 4 月 23 日開放,6 月 22 日截止,滾動審核
測試窗口2026 年 4 月 28 日至 7 月 27 日
準入條件需要現有 ChatGPT 賬號,簽署 NDA
保密要求所有 prompt、輸出和發現均受保密協議覆蓋
面向有 AI 紅隊、安全或生物安全經驗的研究者
可用性與定價 ChatGPT
GPT-5.5 Thinking 面向 Plus、Pro、Business、Enterprise 用戶。GPT-5.5 Pro 面向 Pro、Business、Enterprise 用戶
Codex
GPT-5.5 面向 Plus、Pro、Business、Enterprise、Edu、Go 計劃,400K 上下文窗口。Fast 模式 token 生成速度提升 1.5 倍,成本 2.5 倍
API(即將上線)
gpt-5.5$5/1M input tokens,$30/1M output tokens,1M 上下文窗口
gpt-5.5-pro$30/1M input tokens,$180/1M output tokens
Batch / Flex標準價的一半
Priority標準價的 2.5 倍
GPT-5.5 單價比 GPT-5.4 高,但 token 效率也更高
OpenAI 表示在 Codex 里,GPT-5.5 對大多數用戶來說,實際消耗的 token 比 GPT-5.4 更少
完整 Benchmark 數據
以下是 OpenAI 公布的全部評測數據,按類別整理。所有 GPT 評測在 reasoning effort 設為 xhigh 的研究環境中進行
![]()
Coding 評測表
![]()
Professional 評測表
![]()
Computer Use and Vision 評測表
![]()
Tool Use 評測表
![]()
Academic 評測表
![]()
Cybersecurity 評測表
![]()
Long Context 評測表
![]()
Abstract Reasoning 評測表
![]()
Abstract Reasoning 評測表
短板
SWE-Bench Pro 上 Claude Opus 4.7 報了 64.3%(GPT-5.5 是 58.6%),但 Anthropic 承認部分問題存在記憶化
MCP Atlas 上 Claude Opus 4.7(79.1%)和 Gemini 3.1 Pro(78.2%)均高于 GPT-5.5(75.3%)
Humanity's Last Exam(帶工具)上 GPT-5.4 Pro 的 58.7% 高于 GPT-5.5 Pro 的 57.2%
長上下文 256K 以上,Claude Opus 4.7 在部分指標上仍有優勢
參考材料
→ 官方博客:openai.com/index/introducing-gpt-5-5/
→ System Card:deploymentsafety.openai.com/gpt-5-5
→ Bio Bug Bounty 申請:https://openai.com/index/gpt-5-5-bio-bug-bounty/
→ BixBench 論文:arxiv.org/abs/2503.00096
→ Artificial Analysis 方法論:artificialanalysis.ai/methodology/intelligence-benchmarking
→ API 定價:openai.com/api/pricing/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.