網易首頁 > 網易號 > 正文申請入駐

OpenAI紅色警報下的反擊：發布GPT-5.2迎戰Gemini 3

2025-12-12 13:04:48　來源: DeepTech深科技

北京舉報

分享至

當谷歌的 Gemini 在各大 AI 排行榜上風頭正勁時，OpenAI 終于打出了新的王牌。

周四，這家 AI 巨頭發布了 GPT-5.2，稱其是迄今為止“最強大的模型”，專為開發者和職場人士打造。

（來源：OpenAI）

這場發布會的時機頗為微妙。

一個月前，OpenAI CEO 山姆·奧特曼（Sam Altman）向內部發出“紅色警報”，承認 ChatGPT 面臨巨大競爭壓力，正在輸掉消費市場份額。今天的 GPT-5.2 正是 OpenAI 試圖奪回領導地位的關鍵一步。

同時，今天也是 OpenAI 官宣成立十周年的日子。

GPT-5.2 模型家族包括三個不同版本：Instant、Thinking 和 Pro。

Instant 是速度優化版本，專門處理日常查詢，比如信息檢索、寫作和翻譯這類常規任務。

Thinking 則擅長復雜的結構化工作，在編程、分析長文檔、數學計算和項目規劃方面表現突出。

Pro 則是頂級版本，旨在為最棘手的問題提供最高精度和可靠性。它的運行速度顯著慢于其他版本，且成本極其高昂，專為那些準確性高于一切、成本退居其次的重要任務設計。

測試數據表明，Pro 版本是唯一在 ARC-AGI-1 推理基準測試中突破 90% 大關，并在 AIME 2025 數學競賽中不使用工具就達到 100% 滿分的模型。

在 ChatGPT 中，GPT-5.2 的三個版本已經上線，首先面向付費用戶開放。OpenAI 表示將在未來幾天逐步部署 GPT-5.2，以保持 ChatGPT 盡可能流暢和可靠。

“我們設計 GPT-5.2 就是為了給人們創造更多經濟價值。”OpenAI 應用業務 CEO 菲吉·西莫（Fidji Simo）在發布會上表示。她強調，新模型在創建電子表格、制作演示文稿、編寫代碼、圖像識別、理解長文本、使用工具以及處理復雜多步驟項目方面都有顯著提升。

（來源：OpenAI）

據其介紹，ChatGPT 企業版的普通用戶表示“AI 每天為他們節省 40-60 分鐘”，而重度用戶每周節省時間“超過十小時”。GPT-5.2 的目標就是進一步擴大這種價值。

OpenAI 表示，GPT-5.2 在多項行業基準測試中創下新紀錄。

圖 | 多項基準測試成績（來源：OpenAI）

在涵蓋 40 多種職業專業知識的 GDPval 測試中，GPT-5.2 Thinking 的表現達到了專家級水平。根據專業評審的判斷，在 70.9% 的情況下，GPT-5.2 Thinking 擊敗或打平了頂級行業專業人士。這些任務包括制作演示文稿、電子表格和其他各類工作成果。

更重要的是，GPT-5.2 完成這些任務的速度是專業人士的 11 倍以上，成本卻不到 1%，不過 OpenAI 并未公布模型 VS 人類的成本是如何計算的。

（來源：OpenAI）

在軟件工程領域，GPT-5.2 Thinking 在 SWE-Bench Pro 測試中達到了 55.6% 的新高分。這個成績也是超過了 Claude 4.5 Sonnet 和 Gemini 3 Pro。在更基礎的 SWE-bench Verified 測試中，GPT-5.2 的得分更是達到了 80%。

（來源：資料圖）

OpenAI 研究主管艾丹·克拉克（Aidan Clark）解釋說，更強的數學能力不僅僅是解方程那么簡單。數學推理能力是衡量模型能否遵循多步驟邏輯、保持數字長期一致性、避免可能隨時間累積的細微錯誤的代理指標。

在科學問題方面，GPT-5.2 Pro 在 GPQA Diamond 測試中取得了 93.2% 成績。GPT-5.2 Thinking 也有 92.4% 的高分。雙雙打破了 Gemini 3 Pro 保持的紀錄。

圖 | GPQA Diamond 榜單（來源：OpenAI）

克拉克在發布會上分享了一個案例：團隊讓一位資深免疫學研究員使用 GPT-5.2 Pro，當研究員要求模型生成關于免疫系統最重要的未解問題時，模型產生了“更敏銳的問題和更有力的解釋”，用于說明這些問題為何重要。該研究員認為其表現超過了“所有其他前沿模型”。

在可靠性方面，GPT-5.2 也取得了重要進展。OpenAI 后訓練負責人馬克斯·施瓦策（Max Schwarzer）指出，在衡量對事實性問題回答的基準測試中，GPT-5.2 Thinking 的幻覺出現率比 GPT-5.1 降低了 38%。

（來源：OpenAI）

長文本理解方面，GPT-5.2 Thinking 同樣創下了新紀錄。OpenAI 采用 MRCRv2 評估來衡量模型整合分散在長文檔中信息的能力。

處理需要跨越數十萬 token 相關信息的真實任務時，GPT-5.2 Thinking 的準確性遠超 GPT-5.1 Thinking。它是第一個在四針 MRCRv2 測試中（最多 256k token）實現接近 100% 準確率的模型。

（來源：OpenAI）

這意味著專業人士可以更放心地使用 GPT-5.2 處理長文檔，如報告、合同、研究論文、記錄和多文件項目，同時在數十萬 token 范圍內保持連貫性和準確性。

在視覺能力方面，GPT-5.2 Thinking 在圖表推理和軟件界面理解方面的準確率提升近 50%。這意味著模型可以更準確地解讀儀表板、產品截圖、技術圖表和可視化報告，支持更加依賴視覺信息的工作流。

相比之前的模型，GPT-5.2 Thinking 對圖像中元素位置的把握更強。例如，在識別主板圖像中的組件并返回大致邊界框的任務中，即使在低質量圖像上，GPT-5.2 也能識別主要區域并放置與每個組件真實位置有時匹配的框，而 GPT-5.1 只能標記少數部分，對空間排列的理解要弱得多。

（來源：OpenAI）

值得一提的是，OpenAI 的新圖像生成工具仍然缺位。據報道，奧特曼曾在內部紅色警報備忘錄中表示，圖像生成將是未來的重點，特別是在谷歌的新版 Nano Banana 發布之后。

據報道，OpenAI 計劃在明年一月發布另一款新模型，具有更好的圖像效果、更快的速度和更好的個性，但尚未得到官方確認。

最后在發布會上，OpenAI 承認在某些方面還有改進空間。比如在 ChatGPT 中，公司正在努力解決過度拒絕等已知問題，同時繼續提高回復的可靠性。此外，OpenAI 據傳正在考慮開放模型成人內容限制。

對于 OpenAI 來說，GPT-5.2 能否幫助它重新奪回失去的領地，還需要時間來證明。

參考資料：

https://openai.com/index/introducing-gpt-5-2/

https://www.theverge.com/ai-artificial-intelligence/842529/openai-gpt-5-2-new-model-chatgpt

https://techcrunch.com/2025/12/11/openai-fires-back-at-google-with-gpt-5-2-after-code-red-memo/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.