網易首頁 > 網易號 > 正文申請入駐

GPT-5.2，對Gemini-3反手一掌，2026做牛馬比當學霸重要

2025-12-12 15:26:19　來源: 未盡研究

上海舉報

分享至

你方唱罷我登場，各領風騷十幾天。

GPT-5.2出來了，它實現了對Gemini-3和Claude-4.5的部分反超，在多個實用領域都更強了：做表格、弄PPT、寫代碼、理解長文檔、調用工具、處理復雜多步驟項目……視覺理解能力也大幅提升，能辨別出板卡上的螺絲釘。

（來源OpenAI）

從5.1到5.2，僅用了30天，OpenAI回答了市場上對其前景的質疑，證明了團隊實力，預示了2026年，擴展定律依然是前沿大模型的競爭的最重要法寶，基礎設施將起到更重要的作用。

OpenAI首次引入了它自己開發的打工能力的測評基準GDPval，要證明它既會做學霸，也能當牛馬。

結果5.2成為首個達到或超過人類專家水平的模型。根據人類專家評審的結果，5.2 Thinking 在 GDPval 的知識型任務中，有 70.9% 的項目表現優于頂尖行業專業人士或持平。這些任務包括那些白領打工基本技能，如制作演示文稿、電子表格以及其他活兒。5.2 Thinking 的輸出速度在 GDPval 任務中比專家快 11 倍以上，成本卻不到其 1%。這表明，在有人類監督的情況下，GPT?5.2 能有效輔助專業工作。

（在 GDPval 測試中，模型嘗試完成定義明確的知識型工作，內容涵蓋美國 GDP 貢獻度最高的 9 個行業中的 44 種職業。任務要求生成真實的工作成果。）

兩個半月前，OpenAI公布這個測評體系時，GPT-5的得分，不及當時的Claude最高版本Opus 4.1，但是勝過Gemini 2.5和Grok-4。如今，5.2得分幾乎翻倍。

（來源OpenAI）

盡管如此，GPT?5.2 Thinking想要在實際工作中替代OpenAI的員工仍然相當遙遠。在最新系統卡（system-card）的AI自我改進（Self-Improvement）能力測評中，GPT?5.2 Thinking并沒有未達到一名表現優秀的中等資歷（mid-career）研究工程師的水平。OpenAI 基于20個曾導致重大項目至少延遲一天的真實研發瓶頸問題，構建了OPQA 測試基準。結果，即使在可訪問歷史代碼、日志和實驗數據的條件下，GPT-5.2 Thinking仍缺乏有效診斷問題根源并提出合理解釋的能力，它做得比GPT-5.1 Codex Max更差一點。不能自主發現、分析、解決新問題，意味著AI距離“自我改進”所需的能力仍有巨大差距。

（來源OpenAI）

也就是說，大模型仍然是“高分低能”，干活出活能力，還沒有擺脫最初級的水平。

但我們也不得不服前沿大模型的學霸級考試水平。ARC-AGI也在第一時間發布了測試結果。5.2的準確率高達 90.5%，每個任務的成本僅為 11.64 美元，一年內效率提升了約 390 倍。回顧過去 12 個月，在 ARC-AGI 測試中，任何超過 85% 的準確率都需要近乎瘋狂的計算資源。早期對 o3-preview 的估算顯示，每個任務的成本在 3000 美元到 3 萬美元之間。基本上，每次想要得到一個答案，你消耗的算力成本相當于一輛汽車。現在GPT-5.2 Pro 登場，取得了 90.5% 的準確率，而價格卻只相當于幾杯咖啡。已經相當接近人類95%的水平了。

（來源ARC-AGI）

讓智能體干活，我們正悄無聲息地跨越與人工成本持平的界限，幾乎無人察覺。整個推理的經濟格局正在發生翻天覆地的變化。我們才剛剛開始，接下來會有更快的優化。

谷歌用TPU-6集群首次訓練出最領先的前沿大模型Gemini-3，動搖了英偉達GPU一統天下的格局。Anthropic與谷歌TPU和亞馬遜Trainium的合作，明年分別都達到了百萬卡級。

OpenAI與xAI主要依靠英偉達GPU。這次OpenAI還披露，5.2 是其與長期合作伙伴英偉達和微軟共同打造的成果。Azure 數據中心與英偉達的 H100、H200、GB200-NVL72 等 GPU 構成了 OpenAI 大規模訓練的核心基礎設施，為模型智能帶來了顯著提升。“正是這種合作，使我們能夠更有信心地擴展算力，并更快速地將新模型推向市場。”

這預示著到了2026年的大模型之爭，也將是一場基礎設施之爭。今年砸下的數千億美元，明年將實現滾滾算力。一代GPU，一代大模型。B200和B300的全面擔當主力，英偉達Rubin CPX預計年底上市，專為長上下文推理和視頻生成應用設計。還有TPU-7、Trainium-3的上市。大模型新一波擴展，值得期待。

小結一下，5.2對于明年意味著什么：

1，前沿大模型將會繼續拼擴展定律，也就是拼基礎設施。明年的下一代模型競爭值得期待。在基礎設施門檻顯著提升的情況下，明年中國的DeepSeek-3.x或4用什么基礎設施預訓練？

2，在這樣的大模型競爭升級態勢下，美國已經放開對中國H200的出口，它用來訓練GPT-5，仍然起到了主力作用。這樣，中國領先的開源模型，在訓練階段是否需要H200？

3，面向真實工作場景，擴展可驗證性，建立相應測評基準，加快大模型的實際使用，實現其經濟性，智能體完成復雜真實任務，將是明年一個競爭重點；也就是說，AI大模型公司拼ARR，比爭當學霸更重要了。這也是中國快速學習、打分優異的開源模型需要直面的價值變現問題。

5.2各項能力的得分，最權威和最詳細的，以及它的系統卡，可以看OpenAI官網的公布：

https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/

https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.