GPT-5.2正式迎戰(zhàn)Gemini，OpenAI稱其“最強(qiáng)專業(yè)知識工作大模型”

2025-12-12 10:39:05　來源: 硅基觀察Pro

北京舉報

分享至

凌晨兩點(diǎn)，OpenAI在十周年紀(jì)念日發(fā)布了GPT-5.2。沒有直播、演講，只有一份技術(shù)文檔和緩緩?fù)扑偷哪Ｐ透隆＿@個刻意低調(diào)的時間點(diǎn)，發(fā)生在Gemini 3 Pro首次在關(guān)鍵指標(biāo)上領(lǐng)先、奧特曼宣布"紅色警戒"之后。

GPT-5.2的核心定位指向“專業(yè)知識工作”，主打快速、深度、智能可靠。三個版本——Instant處理日常寫作翻譯，Thinking主攻編程、長文檔分析和規(guī)劃，Pro則追求高難度任務(wù)中的可靠性。分層對準(zhǔn)了律師、分析師、項目經(jīng)理這類職業(yè)的需求。

真正的信息量藏在兩個陌生測試?yán)铩?/p>

第一個是ARC-AGI-2，它測的是"流體智力"——不靠知識儲備，純粹在新情境下推理解謎的能力。

GPT-5.1只拿到17.6分，5.2躍升至52.9分，翻了整三倍。這個分?jǐn)?shù)的含金量在于，它暗示模型底層的推理邏輯發(fā)生了結(jié)構(gòu)性變化，而非單純堆參數(shù)。

第二個是GDPval，OpenAI自己搭建的"經(jīng)濟(jì)價值"評估體系。它覆蓋了美國GDP最高的9個行業(yè)，由平均從業(yè)14年的資深專家設(shè)計了1320道真實(shí)工作任務(wù)。這些不是選擇題，而是耗時7小時到兩周不等的實(shí)戰(zhàn)項目：審閱漏洞合同、優(yōu)化生產(chǎn)流程、制作有說服力的營銷PPT。評審方式是讓同領(lǐng)域?qū)＜颐ぴu，更愿意把哪份成果交給客戶。

結(jié)果，GPT-5.2 Thinking打平或擊敗人類專家的概率是70.9%，Pro版本達(dá)到74.1%。而四個月前的GPT-5，這個數(shù)字是38.8%。從38到74，不是漸進(jìn)優(yōu)化，而是跨越了"能用"與"敢用"的臨界點(diǎn)。

技術(shù)細(xì)節(jié)上，模型達(dá)到了256K上下文"四根針"測試的滿分，幻覺率比5.1降低30%，知識庫更新至2025年8月。

編程方面，SWE-bench Verified創(chuàng)下80%的新高，能端到端修復(fù)生產(chǎn)代碼。OpenAI內(nèi)部甚至測試過讓5.2 Pro解決2019年學(xué)習(xí)理論頂會COLT的一個開放問題——它直接給出了完整的可行證明，經(jīng)外部專家驗(yàn)證正確。

不過在商業(yè)層面，成本問題懸而未決。API價格較5.1上漲，最尷尬的莫過于承諾已久的"成人模式"再度延期，明確推遲到2026年Q1。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.