你方唱罷我登場,各領風騷十幾天。
GPT-5.2出來了,它實現了對Gemini-3和Claude-4.5的部分反超,在多個實用領域都更強了:做表格、弄PPT、寫代碼、理解長文檔、調用工具、處理復雜多步驟項目……視覺理解能力也大幅提升,能辨別出板卡上的螺絲釘。
![]()
(來源OpenAI)
從5.1到5.2,僅用了30天,OpenAI回答了市場上對其前景的質疑,證明了團隊實力,預示了2026年,擴展定律依然是前沿大模型的競爭的最重要法寶,基礎設施將起到更重要的作用。
OpenAI首次引入了它自己開發的打工能力的測評基準GDPval,要證明它既會做學霸,也能當牛馬。
結果5.2成為首個達到或超過人類專家水平的模型。根據人類專家評審的結果,5.2 Thinking 在 GDPval 的知識型任務中,有 70.9% 的項目表現優于頂尖行業專業人士或持平。這些任務包括那些白領打工基本技能,如制作演示文稿、電子表格以及其他活兒。5.2 Thinking 的輸出速度在 GDPval 任務中比專家快 11 倍以上,成本卻不到其 1%。這表明,在有人類監督的情況下,GPT?5.2 能有效輔助專業工作。
![]()
(在 GDPval 測試中,模型嘗試完成定義明確的知識型工作,內容涵蓋美國 GDP 貢獻度最高的 9 個行業中的 44 種職業。任務要求生成真實的工作成果。)
兩個半月前,OpenAI公布這個測評體系時,GPT-5的得分,不及當時的Claude最高版本Opus 4.1,但是勝過Gemini 2.5和Grok-4。如今,5.2得分幾乎翻倍。
![]()
(來源OpenAI)
盡管如此,GPT?5.2 Thinking想要在實際工作中替代OpenAI的員工仍然相當遙遠。在最新系統卡(system-card)的AI自我改進(Self-Improvement)能力測評中,GPT?5.2 Thinking并沒有未達到一名表現優秀的中等資歷(mid-career)研究工程師的水平。OpenAI 基于20個曾導致重大項目至少延遲一天的真實研發瓶頸問題,構建了OPQA 測試基準。結果,即使在可訪問歷史代碼、日志和實驗數據的條件下,GPT-5.2 Thinking仍缺乏有效診斷問題根源并提出合理解釋的能力,它做得比GPT-5.1 Codex Max更差一點。不能自主發現、分析、解決新問題,意味著AI距離“自我改進”所需的能力仍有巨大差距。
![]()
(來源OpenAI)
也就是說,大模型仍然是“高分低能”,干活出活能力,還沒有擺脫最初級的水平。
但我們也不得不服前沿大模型的學霸級考試水平。ARC-AGI也在第一時間發布了測試結果。5.2的準確率高達 90.5%,每個任務的成本僅為 11.64 美元,一年內效率提升了約 390 倍。回顧過去 12 個月,在 ARC-AGI 測試中,任何超過 85% 的準確率都需要近乎瘋狂的計算資源。早期對 o3-preview 的估算顯示,每個任務的成本在 3000 美元到 3 萬美元之間。基本上,每次想要得到一個答案,你消耗的算力成本相當于一輛汽車。現在GPT-5.2 Pro 登場,取得了 90.5% 的準確率,而價格卻只相當于幾杯咖啡。已經相當接近人類95%的水平了。
![]()
(來源ARC-AGI)
讓智能體干活,我們正悄無聲息地跨越與人工成本持平的界限,幾乎無人察覺。整個推理的經濟格局正在發生翻天覆地的變化。我們才剛剛開始,接下來會有更快的優化。
谷歌用TPU-6集群首次訓練出最領先的前沿大模型Gemini-3,動搖了英偉達GPU一統天下的格局。Anthropic與谷歌TPU和亞馬遜Trainium的合作,明年分別都達到了百萬卡級。
OpenAI與xAI主要依靠英偉達GPU。這次OpenAI還披露,5.2 是其與長期合作伙伴英偉達和微軟共同打造的成果。Azure 數據中心與 英偉達的 H100、H200、GB200-NVL72 等 GPU 構成了 OpenAI 大規模訓練的核心基礎設施,為模型智能帶來了顯著提升。“正是這種合作,使我們能夠更有信心地擴展算力,并更快速地將新模型推向市場。”
這預示著到了2026年的大模型之爭,也將是一場基礎設施之爭。今年砸下的數千億美元,明年將實現滾滾算力。一代GPU,一代大模型。B200和B300的全面擔當主力,英偉達Rubin CPX預計年底上市,專為長上下文推理和視頻生成應用設計。還有TPU-7、Trainium-3的上市。大模型新一波擴展,值得期待。
小結一下,5.2對于明年意味著什么:
1,前沿大模型將會繼續拼擴展定律,也就是拼基礎設施。明年的下一代模型競爭值得期待。在基礎設施門檻顯著提升的情況下,明年中國的DeepSeek-3.x或4用什么基礎設施預訓練?
2,在這樣的大模型競爭升級態勢下,美國已經放開對中國H200的出口,它用來訓練GPT-5,仍然起到了主力作用。這樣,中國領先的開源模型,在訓練階段是否需要H200?
3,面向真實工作場景,擴展可驗證性,建立相應測評基準,加快大模型的實際使用,實現其經濟性,智能體完成復雜真實任務,將是明年一個競爭重點;也就是說,AI大模型公司拼ARR,比爭當學霸更重要了。這也是中國快速學習、打分優異的開源模型需要直面的價值變現問題。
5.2各項能力的得分,最權威和最詳細的,以及它的系統卡,可以看OpenAI官網的公布:
https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/
https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.