凌晨兩點(diǎn),OpenAI在十周年紀(jì)念日發(fā)布了GPT-5.2。沒有直播、演講,只有一份技術(shù)文檔和緩緩?fù)扑偷哪P透隆_@個刻意低調(diào)的時間點(diǎn),發(fā)生在Gemini 3 Pro首次在關(guān)鍵指標(biāo)上領(lǐng)先、奧特曼宣布"紅色警戒"之后。
GPT-5.2的核心定位指向“專業(yè)知識工作”,主打快速、深度、智能可靠。三個版本——Instant處理日常寫作翻譯,Thinking主攻編程、長文檔分析和規(guī)劃,Pro則追求高難度任務(wù)中的可靠性。分層對準(zhǔn)了律師、分析師、項目經(jīng)理這類職業(yè)的需求。
真正的信息量藏在兩個陌生測試?yán)铩?/p>
第一個是ARC-AGI-2,它測的是"流體智力"——不靠知識儲備,純粹在新情境下推理解謎的能力。
GPT-5.1只拿到17.6分,5.2躍升至52.9分,翻了整三倍。這個分?jǐn)?shù)的含金量在于,它暗示模型底層的推理邏輯發(fā)生了結(jié)構(gòu)性變化,而非單純堆參數(shù)。
第二個是GDPval,OpenAI自己搭建的"經(jīng)濟(jì)價值"評估體系。它覆蓋了美國GDP最高的9個行業(yè),由平均從業(yè)14年的資深專家設(shè)計了1320道真實(shí)工作任務(wù)。這些不是選擇題,而是耗時7小時到兩周不等的實(shí)戰(zhàn)項目:審閱漏洞合同、優(yōu)化生產(chǎn)流程、制作有說服力的營銷PPT。評審方式是讓同領(lǐng)域?qū)<颐ぴu,更愿意把哪份成果交給客戶。
結(jié)果,GPT-5.2 Thinking打平或擊敗人類專家的概率是70.9%,Pro版本達(dá)到74.1%。而四個月前的GPT-5,這個數(shù)字是38.8%。從38到74,不是漸進(jìn)優(yōu)化,而是跨越了"能用"與"敢用"的臨界點(diǎn)。
技術(shù)細(xì)節(jié)上,模型達(dá)到了256K上下文"四根針"測試的滿分,幻覺率比5.1降低30%,知識庫更新至2025年8月。
編程方面,SWE-bench Verified創(chuàng)下80%的新高,能端到端修復(fù)生產(chǎn)代碼。OpenAI內(nèi)部甚至測試過讓5.2 Pro解決2019年學(xué)習(xí)理論頂會COLT的一個開放問題——它直接給出了完整的可行證明,經(jīng)外部專家驗(yàn)證正確。
不過在商業(yè)層面,成本問題懸而未決。API價格較5.1上漲,最尷尬的莫過于承諾已久的"成人模式"再度延期,明確推遲到2026年Q1。
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.