網易首頁 > 網易號 > 正文申請入駐

GPT-5.2 發布｜信息全整理

2025-12-12 03:40:35　來源: 賽博禪心

北京舉報

分享至

上周，

剛剛，GPT-5.2 來了，包含三個版本

? GPT-5.2 Instant ：日常對話，快
? GPT-5.2 Thinking ：深度任務，代碼、長文檔、數學、規劃
? GPT-5.2 Pro ：最強，適合難題，愿意等

模型肯定是更強的，比如在AIME 2025 中取得滿分，在 ARC-AGI-2 上拿到了 52.9%（和 Gemini3 相當）

今天開始向付費用戶推送，API 已上線，標準版比 GPT-5.1 貴 40%

GPT-5.2 核心評測

如下圖所示，是 GPT-5.2 的相關核心數據

GPT-5.2 Benchmark

注意：

? AIME 2025 滿分（無工具）
? GPT-5.2 Pro 在 ARC-AGI-1 上達到 90.5%，是第一個突破 90% 的模型
? ARC-AGI-2 從 17.6% 到 52.9%，翻了三倍

處理真實工作

GDPval 是 OpenAI 新出的 benchmark

測的是 44 個職業的真實工作任務：
做 PPT、做表格、寫分析報告

GPT-5.2 Thinking 在 70.9% 的任務上勝過或打平行業專家
GPT-5.2 Pro 更高，74.1%

GDPval 知識工作

速度是人類專家的 11 倍，成本不到 1%
一個評審員的評價：
「看起來像是一個有員工的專業公司做的，布局和建議都很專業，雖然還有一些小錯誤需要修正」

在投行分析師的表格建模任務上
比如給 Fortune 500 公司做三表模型、做 LBO 模型
平均分從 59.1% 提升到 68.4%

官方放了幾個對比
GPT-5.2 做的表格和 PPT 比 GPT-5.1 精細很多

Workforce Planner 對比，左邊 GPT-5.1，右邊 GPT-5.2

要用這個功能，需要付費版（Plus、Pro、Business、Enterprise），選 GPT-5.2 Thinking 或 Pro

復雜任務可能要跑好幾分鐘

寫代碼

SWE-Bench Pro 是新的代碼 benchmark
比 SWE-bench Verified 更難

測四種語言，不只是 Python，更接近真實軟件工程
GPT-5.2 Thinking 55.6%，GPT-5.1 是 50.8%

SWE-Bench Pro

前端能力也提升了，尤其是 3D 和復雜 UI
官方放了幾個 demo，單 prompt 生成的

海浪模擬，單 prompt 生成

對此，Windsurf 的 CEO 表示
「這是 GPT-5 以來 agentic coding 最大的躍升，版本號的小幅升級低估了智能的大幅提升。我們會把它設為 Windsurf 和 Devin 核心工作流的默認模型」

看圖

視覺能力提升明顯，錯誤率基本減半

CharXiv Reasoning

CharXiv Reasoning：科學論文圖表問答，88.7%，GPT-5.1 是 80.3%

ScreenSpot-Pro，GUI 截圖理解，86.3%，GPT-5.1 是 64.2%

此外，一個很明顯的區別是：空間位置理解更強了
官方放了個主板識別的對比：給一張低質量的主板圖片，讓模型標注各個組件的位置

GPT-5.1 只能標幾個，位置也不太對

GPT-5.1 主板識別

GPT-5.2 能準確標注各個組件，位置基本對

GPT-5.2 主板識別長文檔

OpenAI MRCRv2，測的是長文檔中多個信息點的整合能力
在文檔里插入多個相同的「針/needl」，然后問模型第 n 個針的內容是什么

4 needle 變體，GPT-5.2 Thinking 在 256k token 長度接近 100%
GPT-5.1 在同樣長度只有 30% 左右

這是第一個在 4-needle 變體上達到接近 100%（256k）的模型

長上下文 4 needles

8 needle 更難，GPT-5.2 也有顯著提升

長上下文 8 needles

API 還支持新的 /compact 端點，可以擴展有效上下文窗口，適合工具多、跑得久的任務

工具調用

Tau2-bench 測的是多輪對話中的工具使用，模擬客服場景
Telecom 領域，GPT-5.2 Thinking 98.7%，GPT-5.1 是 95.6%
Retail 領域，82.0%，GPT-5.1 是 77.9%

工具調用

官方舉了個例子
用戶說：我從巴黎飛紐約的航班延誤了，錯過了轉機去奧斯汀，行李也丟了，需要在紐約過夜，還有醫療原因需要前排座位

GPT-5.1 漏了好幾步

GPT-5.1 工具調用

GPT-5.2 一次性處理完：改簽、特殊座位、賠償，全部搞定

GPT-5.2 工具調用數學和科學

AIME 2025 100%，滿分，無工具
HMMT 2025 年 2 月 99.4%，Pro 版 100%
GPQA Diamond 92.4%，Pro 版 93.2%
FrontierMath Tier 1-3 40.3%，Tier 4 14.6%
HLE（Humanity's Last Exam）34.5%（無工具），45.5%（有工具）

數學&科學

ARC-AGI 是測抽象推理的

ARC-AGI-1，GPT-5.2 Thinking 86.2%，Pro 版 90.5%，第一個突破 90%

ARC-AGI-2 更難，GPT-5.2 Thinking 52.9%，Pro 版 54.2%

GPT-5.1 Thinking 在 ARC-AGI-2 上只有 17.6%

ARC-AGI 幻覺

在 ChatGPT 真實用戶查詢上測試

有錯誤的回復比例從 8.8% 降到 6.2%,相對減少 30%

幻覺率價格

漲了
GPT-5.2 比 GPT-5.1 貴 40%；GPT-5.2 Pro 的價格，一如既往的貴到離譜

每百萬 token 價格

官方解釋：雖然單價更高，但 token 效率更高，達到同樣效果的總成本反而更低

ChatGPT 訂閱價格不變

可用性

ChatGPT 今天開始向付費用戶推送：Plus、Pro、Go、Business、Enterprise
如果還沒看到，過幾天再試

GPT-5.1 在 ChatGPT 中還會保留三個月，之后下線
API 已經上線：

? gpt-5.2 ：Thinking 版
? gpt-5.2-chat-latest ：Instant 版
? gpt-5.2-pro ：Pro 版

在 PlayGround 里面，可以看到這些模型

新增 xhigh reasoning effort，適合對質量要求最高的任務
GPT-5.1、GPT-5、GPT-4.1 在 API 中暫時不會下線
Codex 優化版即將推出

安全

延續了 GPT-5 的 safe completion 研究
在自殺、自殘、心理健康、情感依賴等敏感對話上的表現改進了

安全性評估

開始部署年齡預測模型，18 歲以下用戶自動限制敏感內容
官方說過度拒絕的問題還在改進中

最后

總結下本次發布的內容

? Code Red 一周后，GPT-5.2 發布，三個版本
? 性能更強，價格更貴
? 今天開始向付費用戶推送，API 已上線

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.