<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5.2深夜炸場,評測碾壓谷歌Gemini 3 Pro,真正的打工人利器

      0
      分享至

        作者|沐風

        來源|AI先鋒官

        上周,OpenAI CEO奧特曼剛宣布完公司進入“紅色警戒”(Code Red)狀態,要求團隊將工作重心轉移到提高ChatGPT的性能和用戶體驗上后。

        就在今天,OpenAI發布了最新的頂級模型 GPT-5.2系列。

        GPT-5.2 將向 ChatGPT 付費用戶開放,并通過 API 提供給開發者,一共分為三個系列:

        GPT?5.2 Instant(即時版)

        GPT?5.2 Thinking(思考版)

        GPT?5.2 Pro(專業版)

        在OpenAI官方公布的基準測試中,它幾乎對Gemini 3 Pro、Claude Opus 4.5實現了全方位碾壓。

        

        值得注意的是,GPT?5.2 Thinking在AIME 2025(數學)的分數達到了滿分,Gemini 3 Pro 的分數是 95%。

        OpenAI應用CEO Fidji Simo曾說過,GPT-5.2 的設計目標就是為人們創造更多經濟價值。

        那么如何創造呢?

        那就不得不提到GPT-5.2的拿手好戲:制作電子表格、構建演示文稿、編寫代碼、理解圖像、處理超長上下文、使用工具,以及執行復雜的多步驟項目等等。

        空口無憑,讓我們先來看看數據。

        在OpenAI新出的基準測試GDPval(覆蓋 44 個職業、針對明確知識工作任務的評估體系)中,GPT-5.2 Thinking 在70.9%的任務上勝過或打平行業專家,GPT-5.2 Pro更高,為74.1%。

        

        主要測試內容為制作演示文稿、電子表格以及其他專業產出物。

        官方還放出了對比圖,GPT-5.2 做的表格比GPT-5.1確實精細很多。

        

        一個評審員對此的評價是:“看起來像是一個有員工的專業公司做的,布局和建議都很專業,雖然還有一些小錯誤需要修正。”

        另外,GPT-5.2 Thinking生成輸出的速度也超過人類專家11 倍以上,成本不到人類專家的1%。

        OpenAI 聲稱這是AI模型首次達到了“人類專家水平”。

        在ARC-AGI放出的測試中,此前o3 (High) 在ARC-AGI-1測試得分為88%,平均每項任務成本為4500美元。

        而GPT-5.2 Pro (X-High) 最新SOTA得分為90.5%,是第一個突破90%的模型,它的平均任務成本僅為11.64美元,在一年內效率提高了約390倍。

        

        ARC-AGI-2(抽象推理)的分數是 52.9%,相較此前翻了三倍,對比Gemini 3 Pro是 31.1 %。

        

        GPT-5.2 Thinking的代碼能力也同樣刷新了紀錄:

        在SWE-bench Verified上,得分達到80%。

        在SWE-Bench Pro上,得分達到55.6%。

        

        SWE-Bench Pro是新的代碼基準測試,比SWE-bench Verified更難,涵蓋四種編程語言,不只是Python,更接近真實軟件工程。

        早期測試者特別提到,GPT-5.2在前端的能力也明顯提升了,尤其是3D和復雜UI。

        官方也放出了由單prompt生成的demo:

        

        同時,GPT-5.2 Thinking在長文檔處理方面的表現也很亮眼。

        在OpenAI自制的MRCRv2(長文檔中多個信息點的整合能力)評測中,GPT-5.2 Thinking成為首個在256k 上下文長的4-needle上達到接近100%準確率的模型。

        

        不過,更難的8 needle版還是有明顯下降。

        

        GPT-5.2 Thinking的視覺能力也明顯提升,錯誤率基本減半。

        在CharXiv Reasoning測試中,GPT-5.2 Thinking得分達到88.7%,GPT-5.1是80.3%。

        

        在ScreenSpot-Pro測試中,GPT-5.2 Thinking得分達到86.3%。GPT-5.1 是 64.2%。

        

        在官方放出的示例中,OpenAI 要求模型識別輸入圖像中的組件,并返回帶有大致邊界框的標簽。

        

        即使在低質量圖像上,GPT-5.2 也能識別出主要區域,并放置有時能與每個組件真實位置相匹配的框;而 GPT-5.1 僅標記了少數幾個部分,且對其空間排列的理解要弱得多。

        而且,GPT-5.2 Thinking 的幻覺比GPT-5.1 Thinking更少了。

        在一組去標識化的ChatGPT查詢中,前者包含錯誤的回答相對減少了30%

        

        最后,我們來聊聊價格,GPT-5.2的價格一如既往的貴到離譜。

        GPT-5.2的定價為1.75美元/百萬輸入Token,14美元/百萬輸出Token,緩存輸入有90%的折扣,比GPT-5.1貴40%。

        ChatGPT訂閱價格不變。

        

        但是!

        在多個智能體評估中,盡管GPT-5.2的每Token成本更高,但GPT-5.2由于更高的Token效率,性價比反而更高。

        ChatGPT 將于今日開始逐步推出 GPT-5.2(包括 Instant、Thinking 和 Pro 版本),首先面向付費用戶(Plus、Pro、Go、Business 和 Enterprise 版本)提供。

        為確保 ChatGPT 的流暢性和穩定性,GPT-5.2 將分階段部署,在 ChatGPT 中,付費用戶仍可在三個月內繼續使用 GPT-5.1(舊版模式),之后 GPT-5.1 將逐步下線。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      上強度!中國空警-3000預警機密集試飛,重塑印太空中力量格局

      上強度!中國空警-3000預警機密集試飛,重塑印太空中力量格局

      軍迷戰情室
      2026-02-25 19:38:23
      重慶烤全羊宰客社死!人民日報怒批,坑慘當地文旅,下場大快人心

      重慶烤全羊宰客社死!人民日報怒批,坑慘當地文旅,下場大快人心

      青梅侃史啊
      2026-02-24 16:59:25
      打了四整年,傷亡超百萬

      打了四整年,傷亡超百萬

      中國新聞周刊
      2026-02-24 20:29:08
      陳幸同遭遇1比4慘敗,被對手完全壓制,中國女單主力壓力倍增

      陳幸同遭遇1比4慘敗,被對手完全壓制,中國女單主力壓力倍增

      卿子書
      2026-02-25 08:41:09
      劉強東宣布投資50億進軍游艇行業:希望能造出10萬元級別的好游艇,讓游艇像汽車一樣進入千家萬戶

      劉強東宣布投資50億進軍游艇行業:希望能造出10萬元級別的好游艇,讓游艇像汽車一樣進入千家萬戶

      瀟湘晨報
      2026-02-25 11:11:25
      不再看俄羅斯臉色!普京攔不住,第二個巴鐵誕生,防空全換中國造

      不再看俄羅斯臉色!普京攔不住,第二個巴鐵誕生,防空全換中國造

      通鑒史智
      2026-02-25 09:19:53
      不裝了?特朗普登機啟程前,美方直言不信任中國,訪華只為一件事

      不裝了?特朗普登機啟程前,美方直言不信任中國,訪華只為一件事

      藍色海邊
      2026-02-25 18:40:10
      吃自助餐遇到的人有多離譜?網友:浪費糧食的下輩子吃不上熱菜

      吃自助餐遇到的人有多離譜?網友:浪費糧食的下輩子吃不上熱菜

      解讀熱點事件
      2026-02-25 15:07:10
      著名演員羅伯特自殺離世,享年71歲,被躁郁癥折磨選擇輕生

      著名演員羅伯特自殺離世,享年71歲,被躁郁癥折磨選擇輕生

      素素娛樂
      2026-02-25 15:29:00
      高市早苗揮霍國民稅金,給300余自民黨員每人發數萬禮券,日網友集體暴怒

      高市早苗揮霍國民稅金,給300余自民黨員每人發數萬禮券,日網友集體暴怒

      呼呼歷史論
      2026-02-25 19:04:57
      兩萬元朝鮮五天行:我花三個月工資,買了一堂最值錢的課

      兩萬元朝鮮五天行:我花三個月工資,買了一堂最值錢的課

      世界圈
      2026-02-24 19:32:57
      43歲房祖名罕見露面,難得和父親成龍同框!在國外人脈依舊很廣!

      43歲房祖名罕見露面,難得和父親成龍同框!在國外人脈依舊很廣!

      娛樂團長
      2026-02-25 19:18:28
      曼晚:曼聯夏窗很成功,維韋爾展現出主導豪門引援戰略的能力

      曼晚:曼聯夏窗很成功,維韋爾展現出主導豪門引援戰略的能力

      懂球帝
      2026-02-25 18:59:04
      巴薩選舉大局已定,拉波爾塔優勢碾壓所有對手

      巴薩選舉大局已定,拉波爾塔優勢碾壓所有對手

      吳朑愛游泳
      2026-02-25 18:22:37
      離開勇士的第一場比賽,庫明加笑了一整場

      離開勇士的第一場比賽,庫明加笑了一整場

      籃球看比賽
      2026-02-25 19:28:02
      藏了41年,原來尼格買提父親竟是他,難怪他年年當春晚主持人

      藏了41年,原來尼格買提父親竟是他,難怪他年年當春晚主持人

      蕭佉影視解說
      2026-02-23 20:18:54
      3-2!英超贏麻了!紐卡晉級歐冠16強,誕生3大不可思議+2不爭事實

      3-2!英超贏麻了!紐卡晉級歐冠16強,誕生3大不可思議+2不爭事實

      陌識
      2026-02-25 06:02:47
      為什么飛機提前40分鐘就停止值機?

      為什么飛機提前40分鐘就停止值機?

      大象新聞
      2026-02-24 16:12:03
      全新東風日產軒逸上市,售10.49萬元起/限時9.49萬元起

      全新東風日產軒逸上市,售10.49萬元起/限時9.49萬元起

      紅濤說車
      2026-02-24 18:35:07
      央視主持沙桐:離婚后妻子嘲諷二人多年沒性生活,前妻直言別扯淡

      央視主持沙桐:離婚后妻子嘲諷二人多年沒性生活,前妻直言別扯淡

      冷紫葉
      2026-02-25 15:28:41
      2026-02-25 20:24:49
      AI先鋒官 incentive-icons
      AI先鋒官
      AIGC大模型及應用精選與評測
      437文章數 60關注度
      往期回顧 全部

      科技要聞

      “機器人只跳舞,沒什么用”

      頭條要聞

      新房被淹男子12年未交物業費 春節前后家中停水超50天

      頭條要聞

      新房被淹男子12年未交物業費 春節前后家中停水超50天

      體育要聞

      曝雄鹿計劃今夏追小卡 字母哥渴望與其并肩作戰

      娛樂要聞

      撒貝寧到沈陽跑親戚 老婆李白模特身材

      財經要聞

      上海樓市放大招,地產預期別太大

      汽車要聞

      750km超長續航 2026款小鵬X9純電版將于3月2日上市

      態度原創

      家居
      教育
      藝術
      旅游
      公開課

      家居要聞

      藝居辦公 溫度與效率

      教育要聞

      關注 | 當孩子滿口“網絡諧音梗”:是語言潮流,還是表達力危機?

      藝術要聞

      這位藝術家的馬賽克畫讓人驚嘆不已!

      旅游要聞

      馬年首艘國際訪問港郵輪抵滬 外籍旅客比例超95%

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版