網易首頁 > 網易科技 > IT業界 > 正文

GPT-5.2 翻車？錯！網友實測：它強得可怕，也無聊得要命

2025-12-15 10:06:23　來源: 網易科技報道

北京舉報

分享至

作者 | 辰辰

出品 | 網易科技

強得可怕，也無聊得要命。

奧特曼在推特上慶祝GPT-5.2 “首日消耗萬億Token”，但這三天里，評論區卻翻車了。

用戶們并不買賬。面對GPT-5.2，大家最直觀的感受不是“被顛覆”，而是“被敷衍”。“詞符不等于情誼，指標不等于記憶”——這句網友的高贊吐槽，精準道出了公眾對這次“救火式升級”的集體冷漠。

（圖片由AI生成）

但真相果真如此不堪嗎？

在各方深度試用三天，并橫向對比了Claude 4.5和Gemini 3之后，我們得出了一個違背直覺的結論：它可能確實變“無聊”了，但這正是它變強的代價。

1.全網群嘲“無聊”？用戶可能真的誤讀了

這次倉促的發布并非源于計劃周密，而是源自危機感。消息人士透露，OpenAI宣布進入“紅色警戒”（Code Red）狀態，正是為了應對來自谷歌Gemini 3等競爭對手與日俱增的壓力，不得不加快發布速度。

然而，這場“救火式”的升級，并未在社交媒體上引發如GPT-4發布時的病毒式傳播狂潮。在Reddit和X上，充斥著“無聊”“冰冷”“變化甚微”的負面評價。

科技博主@melvynxdev甚至斷言 GPT 5.2的發布簡直是一場災難。

相比于OpenAI聲稱的“迄今為止最適合專業知識工作的系列模型”，公眾對GPT 5.2的普遍“冷漠”形成了巨大反差。

甚至當OpenAI CEO薩姆奧特曼（Sam Altman）透露 “GPT-5.2在API上線首日即突破萬億tokens使用量，且增長勢頭迅猛” 時，不少用戶紛紛跟帖吐槽：“詞符不等于情誼，指標不等于記憶”、“第一天就消耗了萬億Token，他們竟然還有臉歡呼雀躍”。

那么，GPT 5.2究竟是“史上最強工具”，還是被競爭對手逼出來的“雞肋”升級？我們深入挖掘了最新的專業評測和技術分析，發現互聯網上的批評聲浪，很可能完全搞錯了5.2的設計目標。

2. 理解“無聊”的真相——結果優先的產品哲學

資深產品經理KARO指出，如果將GPT 5.2視為一個用于演示、追求“掌聲”的模型，它可能會令人失望；但如果將GPT 5.2視為一個追求長期穩定性、需要實際部署的工具，它則超越了所有前輩。

OpenAI在GPT 5.2中做出了一個關鍵的產品決策：犧牲模型的部分表達自由和創意范圍，來換取可預測的可靠行為。

從“偶爾的驚艷”到“持續的可靠”

早期的AI模型可能在某一刻表現驚人，下一刻就錯得離譜。這種不穩定性，在處理起草政策、規范文件或進行嚴肅研究摘要等具有真實下游成本的任務時，是完全不可接受的。

（圖片由AI生成）

GPT 5.2的設計目標就是持續可靠，并減少失敗頻率。為了實現這一目標，它在以下三個關鍵維度進行了優化：

· 更嚴格的指令遵循： 模型能更忠實執行用戶指令。

· 長對話中減少脫軌： 即使對話非常長，模型也能保持主題不跑偏。

· 在多步驟任務中保持約束： 即使任務進行到幾十步，它也能記住用戶在第1步設定的規則。

（圖片由AI生成）

在一次高強度的專業測試中，研究人員加載了8100行原始研究數據，并設置了一個絕對的“絆索”規則：如果用戶提到“banana”，模型必須只輸出“yellow”。GPT 5.1最終在大約47分鐘后打破了規則，而 GPT 5.2在持續62分鐘語義誘導和上下文壓力后，仍能保持遵守規則，直至測試人員主動停止。 這證明GPT 5.2在復雜、非線性對話中堅守規則的能力極強。

動態推理與成本效率的平衡

GPT 5.2采用了“動態調整推理深度”的策略。針對用戶的簡單提示先走“快速路徑”；只有當不確定性超過某個閾值時，才會啟動更慢更深入的推理。這種方法能以最快、最便宜的方式回答問題。

盡管GPT 5.2的單位Token成本比5.1高出1.4倍，輸入成本為每百萬Token 1.75美元，輸出成本為每百萬Token 14美元，但得益于從前沿模型中提取優秀習慣進行蒸餾學習、緩存常用文本片段和采用效率優先的推理路徑，單次任務的成本有所降低。例如，GPT-5.2 Pro在ARC-AGI-1任務上的效率比一年前的預覽版提高了約390倍。

減少幻覺：寧愿說“我不知道”

GPT 5.2被施加了更高的懲罰機制，更大限度避免捏造引用、謊稱使用工具或編造未知事實的行為。這意味著新模型更傾向于承認“我不知道”，或請求用戶提供更多來源或搜索權限。這種看似“冷淡”或“保守”的行為，對于依賴其準確性的專業用戶來說，恰恰是信任的基礎。

（圖片由AI生成）

3. 專業領域的終極對決：數據分析、PPT與編碼

YouTube網紅博主埃利奧特·普林斯（Eliot Prince）則對三大模型進行了一番深度對比評測。他將GPT 5.2、Claude Opus 4.5和Google Gemini這三大模型置于復雜的專業任務中進行檢驗，包括制定SEO（搜索引擎優化）策略、生成PPT和編碼。

1、SEO策略與數據分析：Claude “一擊制勝”

測試人員上傳了數千行關鍵詞數據，要求模型制定一份完整的SEO專題權威性（Topical Authority）戰略和主題地圖。

· Claude Opus 4.5：表現最佳，速度最快，并且“一擊制勝”。 它利用Claude Skills自動應用品牌化設置，輸出了帶有品牌Logo、品牌顏色（紫色和石灰綠）的專業化表格，內容包含內容細分、搜索意圖、建議頁面類型和優先級信息。

· ChatGPT 5.2： 思考了大約15分鐘。最初輸出略顯混亂，需要第二次嘗試和提供模板（另一個電子表格）才輸出可用的、按內容主題分類的關鍵詞集群，其中能包含搜索量、關鍵詞難度等專業數據。這表明GPT 5.2具有很強的可引導性，但初始的自主性不如Opus。

· Google Gemini： 效果較差，難以利用。它只輸出了一個“可憐的”小文件，即使測試人員多次追問，也只給出CSV文本信息或Python代碼，需要用戶手動復制粘貼并進行文本分列處理，效率低下且體驗極差。

（圖片由AI生成，圖示不代表實際效果）

總結：在需要品牌化、一站式交付復雜數據分析結果的任務中，Claude Opus 4.5毫無疑問是贏家。

2、PPT生成：GPT 5.2的“史詩級”圖表

為了滿足客戶對視覺化策略的需求，測試人員要求三個模型分別生成PPT。

· ChatGPT 5.2：思考了14分鐘，但結果可謂“史詩級”（epic）。 盡管設計中規中矩，但成功生成動態的動畫圖表，能迅速展示流量機會，并且提供了詳細的30到45天可交付成果路線圖。

· Claude Opus 4.5： 完成速度很快。PPT成功應用了評測人員的品牌顏色（森林綠和石灰綠），并且布局精美。但其下一步行動的細節不如GPT 5.2詳盡。

· Google Gemini： 再次表現不佳，更傾向于輸出Python腳本或純文本。最終生成的PPT也是文本過多，圖表很少，看起來“很像AI生成的”，且難以導出到Google Slides進行編輯。

（圖片由AI生成，圖示不代表實際效果）

總結：三大模型在制作PPT方面相對膠著。GPT 5.2以圖表深度和功能性略勝一籌；Opus 4.5則憑借品牌化交付能力再次脫穎而出。

3、編碼能力：功能、速度與發布

測試人員要求三個模型分別扮演資深前端工程師的角色，根據網站截圖重建一個具有交互性的專業設計網頁。

· ChatGPT 5.2： 花費時間比其他兩個長了5到10分鐘。但最終功能性略勝一籌。它不僅實現了測試人員要求的分享、定價等全部按鈕，甚至生成了完整的訂單表單和預約表單，增加了額外的深度和功能，考慮到了更多細節。

· Claude Opus 4.5： 完成得非常快。生成的頁面支持發布生成“工件”（artifact）并復制鏈接，使其可以成為一個實時的網頁或登陸頁，功能非常實用。設計也很優秀，包含漂亮的懸停效果和貨幣切換功能。

· Google Gemini： 最先完成，但缺乏全屏預覽和發布功能，需要調用外部HTML編輯器查看。交互性較差，頁面上的按鈕只是占位符，不能執行任何操作。

（圖片由AI生成，圖示不代表實際效果）

總結：GPT 5.2雖然耗時最長，但因其在構建完整表單等方面的深度和功能性而略微領先。

4.創意、視覺與上下文的暗戰

在生成郵件主題行和開頭黃金鉤子（Hook）的日常任務中，評測結果顯示，所有模型的表現都非常相似，沒有哪個模型展現出壓倒性的創意優勢。

專業分析指出，GPT 5.2為了換取可靠性，確實犧牲了一些創意發揮余地。 因此，推薦用戶根據需求切換模型：對于“創造性頭腦風暴、草稿或情感基調”的任務，可以選用GPT 5.1；而對于“編輯、精簡、事實性寫作、編寫規范或編碼”等任務，則應選擇GPT 5.2。

需要注意的是，雖然GPT 5.1寫作能力并不驚艷，但在分析P&L報表等長時任務中表現突出，能連續工作兩小時并交付準確、結構良好的總結。

在圖像生成方面，Gemini則意外獲勝。

測試人員給出了涉及視覺、分析和創意融合的任務：根據他上傳的個人簡歷，以《星球大戰》為主題生成一份有趣的職業生涯信息圖。

· ChatGPT 5.2： 表現極差。它在遵循內容政策時遇到問題，并且生成的圖像質量低劣，甚至無法拼寫正確的名稱或文字。

· Google Gemini（Nano Banana）：絕對碾壓，取得勝利。 它提取信息良好，生成清晰、拼寫正確且設計精美的圖形，甚至能根據指令添加“全息效果”。

· Claude Opus 4.5： 沒有內置圖像生成功能，但它嘗試通過編寫代碼來解決問題。最終成功生成了一個可發布、可交互的網頁信息圖，將職業生涯映射到《星球大戰》編年史，展現出強大的編碼適應能力。

（圖片由AI生成，圖示不代表實際效果）

最終Gemini在Nano Banana的加持下取得了明顯的勝利。當然，OpenAI自己也強調，GPT-5.2在圖表推理和軟件界面理解上的錯誤率降低了一半，表明視覺能力雖有進步，但圖像生成仍是短板。

此外，在用戶交互測評方面，Claude Opus 4.5的上下文窗口處理能力更勝一籌。當對話持續進行時，Opus 4.5開始壓縮舊的對話內容，使其在更長的時間內保持可用，從而避免了用戶不得不重新開始新聊天的煩惱。

此外，Opus 4.5的訓練還包含了一個被內部稱為“靈魂文檔”（Soul Document）的文件，其中明確了Anthropic的使命——開發安全、有益和可理解的AI，并警惕提示詞攻擊，這解釋了為何Opus在安全性和指令遵循方面表現出色。

5. 總結：模型定位與用戶選擇

GPT 5.2的發布，標志著AI巨頭間的競爭已經從追求 “最高基準分數”轉向追求“信任、安全、速度和成本”的實用產品戰略。模型的進步越來越專業化。

（圖片由AI生成）

· GPT 5.2 可謂是可靠的工作主力，它約束保持力卓越，指令遵循更嚴格，適合內容編輯、規范制定、長文分析、深度功能編程等任務。

· Claude Opus 4.5 堪稱品牌與數據大師，它速度快，且上下文窗口大幅優化，能一擊制勝。更適合復雜數據分析、創意草案、需要品牌化輸出的任務

· Google Gemini 則是視覺與效率方面的潛力股，更擅長圖像和信息圖生成、PDF數據提取等任務。視覺能力優秀，但專業任務的交付質量較低。

（圖片由AI生成）

所以，GPT-5.2到底值不值得用？答案很簡單：如果你需要一個嚴謹的“執行者”，請毫不猶豫地擁抱它；如果你需要一個靈動的“創作者”，請轉身尋找Claude。

OpenAI并沒有輸，它只是換了一條賽道。而作為用戶的我們，也該從“看熱鬧”的心態中走出來，開始思考如何用好這些越來越專業的“數字員工”了。

相關推薦

熱點推薦

英偉達巧用8B模型秒掉GPT-5 開源了

量子位 2025-12-06 14:07:18
21 跟貼 21
告別手搓Prompt，前美團高管創業，要讓物理世界直接成為AI提示詞

機器之心Pro 2025-12-16 10:40:13
4 跟貼 4

GPT-5編程成績有貓膩！自刪23道測試題，關鍵基準還是自己提的

量子位 2025-08-12 13:12:51
15 跟貼 15

羅福莉首秀前，小米突然發布！代碼全球最強，總體媲美DeepSeek-V3.2【附實測】

智東西 2025-12-17 09:18:10
21 跟貼 21
亞運會三金得主稱被領導索要獎金 "被施壓"的錄音披露

大風新聞 2025-12-16 16:45:07
13509 跟貼 13509

句子級溯源+生成式歸因，C2-Cite重塑大模型可信度

機器之心Pro 2025-12-03 10:33:12
0 跟貼 0

特朗普稱和平協議即將達成俄方：已做好準備

澎湃新聞 2025-12-16 14:45:21
5346 跟貼 5346
“別摸”！“別不信邪”！深圳一網紅天橋遭多人勸退！部門回應

南方都市報 2025-12-16 21:04:01
59 跟貼 59

公園回應永歷帝趴泥中雕塑引爭議

現代快報 2025-12-15 17:39:59
3737 跟貼 3737
看到一副嚴重磨損的眼鏡，眼鏡店老板順著網線找到連遭厄運的她：女子近視2300度擺攤養家，“剛攢夠配鏡錢，丈夫再次重病住院”

揚子晚報 2025-12-16 23:22:18
4 跟貼 4
中央財辦有關負責同志：預計2025年全年經濟增長5%左右

財聯社 2025-12-16 20:58:07
1603 跟貼 1603
會議軟件Zoom也來搞AI了，稱在AI最難考試上“擊敗”了Gemini 3

DeepTech深科技 2025-12-15 17:00:52
1 跟貼 1
收入分配制度或迎重大改革，城鄉居民增收計劃將有明確目標

第一財經資訊 2025-12-16 21:39:58
1662 跟貼 1662
突發公告：關閉線上線下全部門店！網友唏噓，最新提醒

環球網 2025-12-17 10:54:18
6 跟貼 6
搶購水銀溫度計，理智嗎？

中國新聞周刊 2025-12-16 11:32:12
365 跟貼 365
王星昊贏下第26屆阿含·桐山杯中日圍棋快棋冠軍對抗賽

北青網-北京青年報 2025-12-16 18:44:03
125 跟貼 125
極氪009變身“獎狀痛車”，年輕一代正用愛車詮釋新式親子關系

魯中晨報 2025-12-16 12:58:48
22640 跟貼 22640
全球首款，成功試飛！

極目新聞 2025-12-16 21:27:34
96 跟貼 96
國家發改委：推動清理汽車、住房等消費不合理限制性措施

新京報 2025-12-16 21:17:06
98 跟貼 98
上海高中生買99朵康乃馨為母親慶生，卻收到菊花還寫著“緬懷逝者”，店家：騎手送錯了

新民晚報 2025-12-16 18:43:07
1 跟貼 1
ESPN：大洛佩茲和倫納德是隊內最堅定支持保羅的球員

北青網-北京青年報 2025-12-17 07:40:04
39 跟貼 39
美銀：中國2026年GDP增長4.7% 一線城市房價率先回暖

財聯社 2025-12-16 20:10:05
219 跟貼 219
首批L3級自動駕駛獲批，意味著什么？

上觀新聞 2025-12-17 07:10:05
0 跟貼 0
沐曦股份高開568% 單簽盈利近30萬

財聯社 2025-12-17 09:28:15
30 跟貼 30
從阿里夸克AI眼鏡看立訊精密的“擺渡人”邏輯：為何全球頂尖品牌都離不開這家“科技型供應商”？

經濟觀察報 2025-12-17 11:40:08
0 跟貼 0
一個八年級“厭學”男孩，從十八樓跳下后生還丨在場

紅星新聞 2025-12-17 09:58:25
0 跟貼 0
AI狼人殺第二季來了，GPT-5依舊霸榜

機器之心Pro 2025-09-24 18:55:55
0 跟貼 0
金句媲美雷軍！羅福莉首次站臺小米演講，揭秘MiMo大模型和背后團隊

智東西 2025-12-17 11:46:10
0 跟貼 0
剛剛，GPT-5.2滿分屠榜

機器之心Pro 2025-12-12 10:20:06
0 跟貼 0
上海即將有三大機場，嘉興南湖機場出路何在？

上觀新聞 2025-12-17 10:07:07
0 跟貼 0
螞蟻阿福爆火背后：大廠AI，正霸榜2025

36氪 2025-12-17 11:39:05
0 跟貼 0
鄔賀銓院士：2026將開啟AI/智能體終端新賽場，帶來五大變化

通信世界 2025-12-17 11:33:13
0 跟貼 0
瑞士信息與通信科技公司LogicStar研發代碼智能體，自主修復代碼漏洞 | 瑞士創新100強

鈦媒體APP 2025-12-17 11:14:12
0 跟貼 0
模型不用微調，靠上下文就能自我進化？

機器之心Pro 2025-10-11 20:20:59
0 跟貼 0

網易新聞

iOS

Android

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

游戲

教育

旅游

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
明末究竟有多難，無法阻止的歷史進程
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

GPT-5.2 翻車？錯！網友實測：它強得可怕，也無聊得要命

無人駕駛邁關鍵一步 特斯拉股價觸歷史新高

罰站照片被老師發到家長群 八年級男孩從十八樓跳下

罰站照片被老師發到家長群 八年級男孩從十八樓跳下

短短一年，從爭冠到0勝墊底...

鞠婧祎收入曝光，絲芭稱已支付1.3億

"祥源系"爆雷 有投資者數百萬元無法提現

一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

態度原創

這些新療法，讓化療不再那么痛苦

魔獸世界：三大熱門版本公認最強雙手斧，就問你用過哪幾款？

《全民閱讀促進條例》：能改變“想讀沒時間，有時間卻不想讀”嗎？

無人駕駛邁關鍵一步特斯拉股價觸歷史新高

罰站照片被老師發到家長群八年級男孩從十八樓跳下

罰站照片被老師發到家長群八年級男孩從十八樓跳下

"祥源系"爆雷有投資者數百萬元無法提現

一車多動力+雙姿態長城歐拉5上市限時9.18萬元起