<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

^{<blockquote id="ixsqe"></blockquote>}

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

GPT-5.2深夜炸場，評測碾壓谷歌Gemini 3 Pro，真正的打工人利器

2025-12-12 11:48:16　來源: AI先鋒官

北京舉報

0

分享至

　　作者｜沐風

　　來源｜AI先鋒官

　　上周，OpenAI CEO奧特曼剛宣布完公司進入“紅色警戒”（Code Red）狀態，要求團隊將工作重心轉移到提高ChatGPT的性能和用戶體驗上后。

　　就在今天，OpenAI發布了最新的頂級模型 GPT-5.2系列。

　　GPT-5.2 將向 ChatGPT 付費用戶開放，并通過 API 提供給開發者，一共分為三個系列：

　　GPT?5.2 Instant（即時版）

　　GPT?5.2 Thinking（思考版）

　　GPT?5.2 Pro（專業版）

　　在OpenAI官方公布的基準測試中，它幾乎對Gemini 3 Pro、Claude Opus 4.5實現了全方位碾壓。

　　

　　值得注意的是，GPT?5.2 Thinking在AIME 2025（數學）的分數達到了滿分，Gemini 3 Pro 的分數是 95%。

　　OpenAI應用CEO Fidji Simo曾說過，GPT-5.2 的設計目標就是為人們創造更多經濟價值。

　　那么如何創造呢？

　　那就不得不提到GPT-5.2的拿手好戲：制作電子表格、構建演示文稿、編寫代碼、理解圖像、處理超長上下文、使用工具，以及執行復雜的多步驟項目等等。

　　空口無憑，讓我們先來看看數據。

　　在OpenAI新出的基準測試GDPval（覆蓋 44 個職業、針對明確知識工作任務的評估體系）中，GPT-5.2 Thinking 在70.9%的任務上勝過或打平行業專家，GPT-5.2 Pro更高，為74.1%。

　　

　　主要測試內容為制作演示文稿、電子表格以及其他專業產出物。

　　官方還放出了對比圖，GPT-5.2 做的表格比GPT-5.1確實精細很多。

　　

　　一個評審員對此的評價是：“看起來像是一個有員工的專業公司做的，布局和建議都很專業，雖然還有一些小錯誤需要修正。”

　　另外，GPT-5.2 Thinking生成輸出的速度也超過人類專家11 倍以上，成本不到人類專家的1%。

　　OpenAI 聲稱這是AI模型首次達到了“人類專家水平”。

　　在ARC-AGI放出的測試中，此前o3 (High) 在ARC-AGI-1測試得分為88%，平均每項任務成本為4500美元。

　　而GPT-5.2 Pro (X-High) 最新SOTA得分為90.5%，是第一個突破90%的模型，它的平均任務成本僅為11.64美元，在一年內效率提高了約390倍。

　　

　　ARC-AGI-2（抽象推理）的分數是 52.9%，相較此前翻了三倍，對比Gemini 3 Pro是 31.1 %。

　　

　　GPT-5.2 Thinking的代碼能力也同樣刷新了紀錄：

　　在SWE-bench Verified上，得分達到80%。

　　在SWE-Bench Pro上，得分達到55.6%。

　　

　　SWE-Bench Pro是新的代碼基準測試，比SWE-bench Verified更難，涵蓋四種編程語言，不只是Python，更接近真實軟件工程。

　　早期測試者特別提到，GPT-5.2在前端的能力也明顯提升了，尤其是3D和復雜UI。

　　官方也放出了由單prompt生成的demo：

　　

　　同時，GPT-5.2 Thinking在長文檔處理方面的表現也很亮眼。

　　在OpenAI自制的MRCRv2（長文檔中多個信息點的整合能力）評測中，GPT-5.2 Thinking成為首個在256k 上下文長的4-needle上達到接近100%準確率的模型。

　　

　　不過，更難的8 needle版還是有明顯下降。

　　

　　GPT-5.2 Thinking的視覺能力也明顯提升，錯誤率基本減半。

　　在CharXiv Reasoning測試中，GPT-5.2 Thinking得分達到88.7%，GPT-5.1是80.3%。

　　

　　在ScreenSpot-Pro測試中，GPT-5.2 Thinking得分達到86.3%。GPT-5.1 是 64.2%。

　　

　　在官方放出的示例中，OpenAI 要求模型識別輸入圖像中的組件，并返回帶有大致邊界框的標簽。

　　

　　即使在低質量圖像上，GPT-5.2 也能識別出主要區域，并放置有時能與每個組件真實位置相匹配的框；而 GPT-5.1 僅標記了少數幾個部分，且對其空間排列的理解要弱得多。

　　而且，GPT-5.2 Thinking 的幻覺比GPT-5.1 Thinking更少了。

　　在一組去標識化的ChatGPT查詢中，前者包含錯誤的回答相對減少了30%。

　　

　　最后，我們來聊聊價格，GPT-5.2的價格一如既往的貴到離譜。

　　GPT-5.2的定價為1.75美元/百萬輸入Token，14美元/百萬輸出Token，緩存輸入有90%的折扣，比GPT-5.1貴40%。

　　ChatGPT訂閱價格不變。

　　

　　但是！

　　在多個智能體評估中，盡管GPT-5.2的每Token成本更高，但GPT-5.2由于更高的Token效率，性價比反而更高。

　　ChatGPT 將于今日開始逐步推出 GPT-5.2（包括 Instant、Thinking 和 Pro 版本），首先面向付費用戶（Plus、Pro、Go、Business 和 Enterprise 版本）提供。

　　為確保 ChatGPT 的流暢性和穩定性，GPT-5.2 將分階段部署，在 ChatGPT 中，付費用戶仍可在三個月內繼續使用 GPT-5.1（舊版模式），之后 GPT-5.1 將逐步下線。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

遭谷歌制裁，OpenClaw創始人：Anthropic會先打電話，直接封號

機器之心Pro 2026-02-25 17:49:33
0 跟貼 0
龍蝦之父新訪談，OpenClaw內幕公開！攔不住濫用，只勸大家別玩火

量子位 2026-02-25 13:46:20
2 跟貼 2

千億AI芯片巨單！AMD拿下，蘇媽贏麻

智東西 2026-02-25 18:45:01
0 跟貼 0

英霸已老，谷王當立 | 財經峰評

鈦媒體APP 2025-12-07 22:30:21
10 跟貼 10
46.5萬次盲測封王！Grok視頻模型屠榜Arena，谷歌最強對手來了

新智元 2026-02-25 14:01:04
0 跟貼 0

融資34億！谷歌前TPU員工創業新型芯片，卡帕西也投了

量子位 2026-02-25 15:06:31
0 跟貼 0

DeepMind負責人：2036 AI意識覺醒？LeCun怒懟：LLM路線全錯！

新智元 2025-12-16 16:55:25
0 跟貼 0
Nano Banana 2，泄露！

智東西 2026-02-25 19:57:23
0 跟貼 0

下一代谷歌頭顯，XREAL x Google 定義混合現實頭顯

愛范兒 2025-12-10 05:12:08
0 跟貼 0
機器人進汽車廠，給波士頓動力，裝上谷歌最強大腦

機器之心Pro 2026-01-06 19:02:05
0 跟貼 0
DeepSeek推理分裂出多重人格，越社交越聰明

量子位 2026-02-04 03:32:03
0 跟貼 0
和女朋友冷戰想辦法緩和，男人沒說一句話，只是打開一個軟件！

搞怪藝術家 2026-02-21 11:00:00
104 跟貼 104
4個月燒掉30億Token，這位「菜鳥」程序員做出50多個產品

機器之心Pro 2026-01-04 14:53:09
87 跟貼 87
硅谷養老夢碎！OpenAI深夜突發：不接受996的就走，AGI不養閑人

新智元 2026-02-25 09:23:15
113 跟貼 113
清華數學系大神跳槽OpenAI！曾主導SAM與Llama開發

量子位 2026-02-25 13:03:49
2 跟貼 2
硅谷科技大廠的員工們，都在怎么應對AI焦慮？

凱莉彭 2026-02-22 20:46:13
0 跟貼 0
AI能寫COBOL代碼，IBM股價單日蒸發310億美元，創26年最慘紀錄

機器之心Pro 2026-02-25 11:48:13
1 跟貼 1
英偉達巧用8B模型秒掉GPT-5 開源了

量子位 2025-12-06 14:07:18
73 跟貼 73
消費級顯卡可跑！剛剛，阿里Qwen3.5又開源3款新模型

機器之心Pro 2026-02-25 17:09:48
0 跟貼 0
讓兩個大模型在線吵架，跑通全網95%科研代碼｜深勢Deploy-Master

機器之心Pro 2026-01-09 14:22:47
0 跟貼 0
大模型最難的AI Infra，用Vibe Coding搞定

機器之心Pro 2026-01-07 15:33:06
0 跟貼 0
DPO「只看總分不看細節」？TI-DPO用Token重要性重塑大模型對齊

機器之心Pro 2026-02-11 13:45:57
0 跟貼 0
金魚損失隨機剔除token，讓AI不再死記硬背

量子位 2025-09-03 17:37:23
0 跟貼 0
北航開源Code2Bench：雙擴展動態評測，代碼大模型告別躺平刷分

機器之心Pro 2026-02-25 15:51:27
0 跟貼 0
美國高薪挖角中國頂尖人才，一周4人年薪1億

王觪曉 2026-02-25 12:33:24
0 跟貼 0
成本0.3美元，耗時26分鐘！CudaForge：顛覆性低成本CUDA優化框架

機器之心Pro 2025-11-17 18:45:03
0 跟貼 0
哈爾濱冰雪大世界：正式閉園

大風新聞 2026-02-21 20:36:03
1869 跟貼 1869
300多只東北虎“輕斷食”？景區：每天斷食1個園，司機會帶游客找可投喂區

封面新聞 2026-02-23 16:29:03
1660 跟貼 1660
AI記住失敗經驗：微軟提出Re-TRAC框架，4B性能SOTA，30B超越358B

機器之心Pro 2026-02-25 17:33:51
0 跟貼 0
微信出新功能，網友：簡直是社恐福音

南方都市報 2026-02-25 16:59:07
12 跟貼 12
推理新范式：動態效能算法讓算力資源實現最大化

智東西 2025-11-12 19:58:10
0 跟貼 0
喬布斯誕辰日，蘋果公司召開股東大會：庫克并未接任董事長，也未釋放首款蘋果折疊屏手機相關信息

極目新聞 2026-02-25 08:38:15
136 跟貼 136
嫌疑人當面刪代碼，挑釁警察不懂技術，警察自爆身份嚇傻嫌疑人

惠娥輕笑 2026-02-24 10:41:45
1 跟貼 1
Gemini 3一句話打造拍立得應用刷屏！全網最火8個玩法都在這，看完秒上手

愛范兒 2025-11-20 18:04:33
0 跟貼 0
“OpenClaw之父”：當“實驗項目”變成“全球爆款”，軟件開發本質已變——代碼已死、意圖永生

華爾街見聞官方 2026-02-25 11:17:27
2 跟貼 2
“大考時刻”10萬公里耐久評測，現代Staria優缺點都很明顯

ams車評網 2026-02-22 08:35:05
1 跟貼 1
5000億美元牛皮吹破了？特朗普的“星際之門”黃了，一年都沒動工

科技專家 2026-02-25 16:19:49
0 跟貼 0
客服回應iPhone半夜自動撥號：建議用戶強制重啟并更新系統近日，多名網友反映iPhone手機凌晨

中安在線 2026-02-25 17:37:34
0 跟貼 0
OpenClaw之父：代碼已死，意圖永生，還沒上車的人要先玩起來

華爾街見聞官方 2026-02-25 17:46:05
0 跟貼 0
小米起訴自媒體賬號賠償500萬實控人為蔚來李斌？相關人士：假的

財聯社 2026-02-25 19:45:05
0 跟貼 0

上強度！中國空警-3000預警機密集試飛，重塑印太空中力量格局

上強度！中國空警-3000預警機密集試飛，重塑印太空中力量格局

軍迷戰情室

2026-02-25 19:38:23

重慶烤全羊宰客社死！人民日報怒批，坑慘當地文旅，下場大快人心

重慶烤全羊宰客社死！人民日報怒批，坑慘當地文旅，下場大快人心

青梅侃史啊

2026-02-24 16:59:25

打了四整年，傷亡超百萬

中國新聞周刊

2026-02-24 20:29:08

陳幸同遭遇1比4慘敗，被對手完全壓制，中國女單主力壓力倍增

陳幸同遭遇1比4慘敗，被對手完全壓制，中國女單主力壓力倍增

卿子書

2026-02-25 08:41:09

劉強東宣布投資50億進軍游艇行業：希望能造出10萬元級別的好游艇，讓游艇像汽車一樣進入千家萬戶

劉強東宣布投資50億進軍游艇行業：希望能造出10萬元級別的好游艇，讓游艇像汽車一樣進入千家萬戶

瀟湘晨報

2026-02-25 11:11:25

不再看俄羅斯臉色！普京攔不住，第二個巴鐵誕生，防空全換中國造

不再看俄羅斯臉色！普京攔不住，第二個巴鐵誕生，防空全換中國造

通鑒史智

2026-02-25 09:19:53

不裝了？特朗普登機啟程前，美方直言不信任中國，訪華只為一件事

不裝了？特朗普登機啟程前，美方直言不信任中國，訪華只為一件事

藍色海邊

2026-02-25 18:40:10

吃自助餐遇到的人有多離譜？網友：浪費糧食的下輩子吃不上熱菜

吃自助餐遇到的人有多離譜？網友：浪費糧食的下輩子吃不上熱菜

解讀熱點事件

2026-02-25 15:07:10

著名演員羅伯特自殺離世，享年71歲，被躁郁癥折磨選擇輕生

著名演員羅伯特自殺離世，享年71歲，被躁郁癥折磨選擇輕生

素素娛樂

2026-02-25 15:29:00

高市早苗揮霍國民稅金，給300余自民黨員每人發數萬禮券，日網友集體暴怒

高市早苗揮霍國民稅金，給300余自民黨員每人發數萬禮券，日網友集體暴怒

呼呼歷史論

2026-02-25 19:04:57

兩萬元朝鮮五天行：我花三個月工資，買了一堂最值錢的課

兩萬元朝鮮五天行：我花三個月工資，買了一堂最值錢的課

世界圈

2026-02-24 19:32:57

43歲房祖名罕見露面，難得和父親成龍同框！在國外人脈依舊很廣！

43歲房祖名罕見露面，難得和父親成龍同框！在國外人脈依舊很廣！

娛樂團長

2026-02-25 19:18:28

曼晚：曼聯夏窗很成功，維韋爾展現出主導豪門引援戰略的能力

曼晚：曼聯夏窗很成功，維韋爾展現出主導豪門引援戰略的能力

懂球帝

2026-02-25 18:59:04

巴薩選舉大局已定，拉波爾塔優勢碾壓所有對手

巴薩選舉大局已定，拉波爾塔優勢碾壓所有對手

吳朑愛游泳

2026-02-25 18:22:37

離開勇士的第一場比賽，庫明加笑了一整場

離開勇士的第一場比賽，庫明加笑了一整場

籃球看比賽

2026-02-25 19:28:02

藏了41年，原來尼格買提父親竟是他，難怪他年年當春晚主持人

藏了41年，原來尼格買提父親竟是他，難怪他年年當春晚主持人

蕭佉影視解說

2026-02-23 20:18:54

3-2！英超贏麻了！紐卡晉級歐冠16強，誕生3大不可思議+2不爭事實

3-2！英超贏麻了！紐卡晉級歐冠16強，誕生3大不可思議+2不爭事實

陌識

2026-02-25 06:02:47

為什么飛機提前40分鐘就停止值機？

為什么飛機提前40分鐘就停止值機？

大象新聞

2026-02-24 16:12:03

全新東風日產軒逸上市，售10.49萬元起/限時9.49萬元起

全新東風日產軒逸上市，售10.49萬元起/限時9.49萬元起

紅濤說車

2026-02-24 18:35:07

央視主持沙桐：離婚后妻子嘲諷二人多年沒性生活，前妻直言別扯淡

央視主持沙桐：離婚后妻子嘲諷二人多年沒性生活，前妻直言別扯淡

冷紫葉

2026-02-25 15:28:41

AIGC大模型及應用精選與評測

437文章數 60關注度

往期回顧全部

科技要聞

“機器人只跳舞，沒什么用”

頭條要聞

新房被淹男子12年未交物業費春節前后家中停水超50天

頭條要聞

新房被淹男子12年未交物業費春節前后家中停水超50天

體育要聞

曝雄鹿計劃今夏追小卡字母哥渴望與其并肩作戰

娛樂要聞

撒貝寧到沈陽跑親戚老婆李白模特身材

財經要聞

上海樓市放大招，地產預期別太大

汽車要聞

750km超長續航 2026款小鵬X9純電版將于3月2日上市

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

教育

藝術

旅游

公開課

家居要聞

藝居辦公溫度與效率

本真棲居愛暖伴流年
中古雅韻樂韻伴日常
簡雅閑居靜享時光柔

教育要聞

關注 | 當孩子滿口“網絡諧音梗”：是語言潮流，還是表達力危機？

藝術要聞

這位藝術家的馬賽克畫讓人驚嘆不已！

旅游要聞

馬年首艘國際訪問港郵輪抵滬外籍旅客比例超95%

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<sub id="154ki"></sub>